[python] 파이썬 BeautifulSoup과 데이터 가공

소개

데이터 가공 및 웹 스크래핑을 위한 파이썬 패키지인 BeautifulSoup은 웹 페이지에서 데이터를 추출하고 가공하는 데 사용됩니다. 이 패키지는 HTML 및 XML 문서를 파싱하고 이를 탐색하기 위한 간단하고 직관적인 인터페이스를 제공합니다.

이번 블로그에서는 BeautifulSoup을 사용하여 웹 페이지에서 데이터를 추출하고 가공하는 방법을 알아보겠습니다.

설치

먼저, BeautifulSoup을 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

사용법

  1. 웹 페이지 다운로드

먼저 웹 페이지를 다운로드하여 BeautifulSoup으로 파싱합니다. 다음은 requests 패키지를 사용하여 웹 페이지를 다운로드하는 예제입니다.

import requests
from bs4 import BeautifulSoup

url = "https://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
  1. 데이터 추출

이제 웹 페이지에서 필요한 데이터를 추출할 수 있습니다. BeautifulSoup은 HTML 요소를 탐색하기 위한 다양한 메서드를 제공합니다. 예를 들어, 태그 이름, 클래스, id를 이용하여 특정 요소를 선택할 수 있습니다.

다음은 특정 클래스명을 가진 모든 링크를 추출하는 예제입니다.

links = soup.find_all("a", class_="link-class")
for link in links:
    print(link["href"])
  1. 데이터 가공

추출한 데이터를 원하는 형태로 가공할 수 있습니다. BeautifulSoup에서 제공하는 메서드를 사용하여 데이터를 조작할 수 있습니다. 예를 들어, 텍스트 형식으로 데이터를 추출하거나 특정 속성 값을 가져올 수 있습니다.

다음은 특정 요소의 텍스트를 추출하는 예제입니다.

element = soup.find("div", class_="element-class")
print(element.text.strip())

마무리

이제 BeautifulSoup을 사용하여 웹 페이지에서 데이터를 추출하고 가공하는 방법에 대해 알아보았습니다. 이는 데이터 분석, 웹 스크래핑 등 다양한 분야에서 유용하게 활용될 수 있습니다.

더 자세한 내용은 BeautifulSoup 공식 문서를 참고해주세요.