[python] 파이썬 BeautifulSoup으로 웹 사이트 시각화

04 Dec 2023

python

웹 스크래핑은 파이썬을 사용하여 웹사이트에서 데이터를 추출하는 작업을 의미합니다. 이러한 데이터를 웹 사이트 시각화 도구를 사용하여 시각적으로 나타내는 것은 데이터를 더욱 쉽게 이해하고 분석할 수 있게 해줍니다. 파이썬의 BeautifulSoup 라이브러리는 HTML과 XML 문서를 파싱하여 웹 사이트에서 데이터를 추출하는데 사용됩니다.

BeautifulSoup 설치

BeautifulSoup를 사용하기 위해서는 먼저 해당 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 BeautifulSoup를 설치할 수 있습니다.

pip install beautifulsoup4

웹 스크래핑 기본

BeautifulSoup를 사용하여 웹 사이트에서 데이터를 추출하는 기본적인 방법을 살펴보겠습니다. 아래는 간단한 예제입니다.

from bs4 import BeautifulSoup
import requests

# HTML 문서를 가져옵니다.
url = "http://example.com"
response = requests.get(url)
html = response.text

# BeautifulSoup 객체를 생성합니다.
soup = BeautifulSoup(html, "html.parser")

# 원하는 데이터를 추출합니다.
title = soup.title.text
print("페이지 제목:", title)

위 코드에서는 requests 라이브러리를 사용하여 웹 사이트의 HTML 문서를 가져온 후, BeautifulSoup 객체를 생성하여 원하는 데이터를 추출합니다. 여기서는 페이지의 제목을 추출하여 출력하는 예제입니다.

웹 사이트 시각화

데이터를 추출한 후에는 시각화 도구를 사용하여 이를 시각적으로 나타낼 수 있습니다. 파이썬에서는 다양한 시각화 도구를 제공하며, 가장 널리 사용되는 것은 Matplotlib입니다. 아래의 예제는 Matplotlib을 사용하여 추출한 데이터를 그래프로 나타내는 방법을 보여줍니다.

import matplotlib.pyplot as plt

# 추출한 데이터
data = [1, 3, 5, 7, 9]

# 그래프 생성
plt.plot(data)

# 그래프 출력
plt.show()

위 코드에서는 Matplotlib의 plot 함수를 사용하여 데이터를 그래프로 나타내고, show 함수를 호출하여 그래프를 출력합니다.

이와 같이 BeautifulSoup를 사용하여 웹 사이트에서 데이터를 추출한 후, Matplotlib을 사용하여 데이터를 시각화할 수 있습니다. 이를 통해 웹 사이트에서 추출한 데이터를 시각적으로 분석하고 이해하는 것이 가능해집니다.

참고 자료

BeautifulSoup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
Matplotlib 공식 문서: https://matplotlib.org/stable/contents.html