[python] 파이썬 BeautifulSoup과 데이터 추출

04 Dec 2023

python

파이썬을 사용하여 웹 스크래핑 및 데이터 추출을 할 때, BeautifulSoup 라이브러리는 매우 편리하고 유용한 도구입니다. BeautifulSoup은 HTML 및 XML 문서를 파싱하고 데이터를 추출하는데 사용됩니다. 이번 블로그 포스트에서는 BeautifulSoup을 사용하여 데이터를 추출하는 방법에 대해 알아보겠습니다.

BeautifulSoup 설치

먼저, BeautifulSoup을 설치해야 합니다. 다음 명령어를 사용하여 BeautifulSoup을 설치할 수 있습니다:

pip install beautifulsoup4

웹 페이지 데이터 가져오기

데이터를 추출하기 전에, 웹 페이지의 HTML 코드를 가져와야 합니다. requests 라이브러리를 사용하여 간단하게 웹 페이지 데이터를 가져올 수 있습니다. 다음은 예시입니다:

import requests

url = "http://example.com"
response = requests.get(url)
html = response.text

데이터 추출하기

이제 데이터를 추출할 차례입니다. BeautifulSoup을 사용하여 HTML 코드를 파싱하고, 원하는 데이터를 추출할 수 있습니다. 다음은 몇 가지 기본적인 데이터 추출 기술입니다:

태그로 데이터 추출

특정 태그에서 데이터를 추출하려면 find() 메서드나 find_all() 메서드를 사용합니다. 다음은 이 두 메서드의 사용 예시입니다:

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "html.parser")

# 단일 태그 추출
tag = soup.find("tag_name")
data = tag.text

# 여러 태그 추출
tags = soup.find_all("tag_name")
for tag in tags:
    data = tag.text
    print(data)

속성으로 데이터 추출

특정 속성 값을 가진 태그에서 데이터를 추출하려면 find() 메서드에 attrs 매개변수를 사용합니다. 다음은 예시입니다:

tag = soup.find("tag_name", attrs={"attribute_name": "attribute_value"})
data = tag.text

CSS 선택자로 데이터 추출

CSS 선택자를 사용하여 특정 요소에서 데이터를 추출할 수도 있습니다. select() 메서드를 사용하여 CSS 선택자로 데이터를 추출할 수 있습니다. 다음은 예시입니다:

# 단일 요소 추출
element = soup.select_one("css_selector")
data = element.text

# 여러 요소 추출
elements = soup.select("css_selector")
for element in elements:
    data = element.text
    print(data)

요약

이번 포스트에서는 파이썬 BeautifulSoup을 사용하여 웹 스크래핑 및 데이터 추출하는 방법을 알아보았습니다. BeautifulSoup을 사용하면 웹 페이지에서 쉽게 데이터를 추출할 수 있고, 태그, 속성, CSS 선택자를 사용하여 원하는 데이터를 추출할 수 있습니다.

더 자세한 정보와 사용법은 BeautifulSoup 공식 문서를 참조하시기 바랍니다.