[python] 파이썬 BeautifulSoup으로 웹 컨텐츠 필터링하기

04 Dec 2023

python

이번 포스트에서는 파이썬의 라이브러리인 BeautifulSoup을 사용하여 웹 컨텐츠를 필터링하는 방법을 알아보겠습니다. BeautifulSoup은 HTML 및 XML 문서를 파싱하고 원하는 데이터를 추출하는 데 사용되는 강력한 도구입니다.

BeautifulSoup 설치

먼저, BeautifulSoup을 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

웹 컨텐츠 다운로드

필터링하려는 웹 페이지의 HTML 코드를 다운로드해야 합니다. 예를 들어, 다음과 같은 코드로 웹 페이지의 HTML 코드를 다운로드할 수 있습니다.

import requests

url = "https://example.com"
response = requests.get(url)
html_content = response.text

BeautifulSoup으로 웹 컨텐츠 파싱

이제 BeautifulSoup을 사용하여 웹 컨텐츠를 파싱합니다. 파싱할 때는 컨텐츠에서 원하는 부분을 선택하기 위해 CSS 선택자를 사용할 수 있습니다. 아래의 예시 코드에서는 h1 태그를 선택하여 제목을 추출하는 방법을 보여줍니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, "html.parser")
title = soup.select_one("h1").text

print(title)

위의 코드에서는 select_one() 메서드로 CSS 선택자 "h1"을 사용하여 첫 번째 h1 태그를 선택하고 .text 속성을 사용하여 그 안의 텍스트를 추출합니다.

결과 확인

위의 코드를 실행하면 선택된 제목이 출력됩니다. 웹 컨텐츠에서 다른 데이터를 추출하기 위해서는 원하는 요소의 CSS 선택자를 알아내고 해당 요소의 속성이나 텍스트를 추출하는 방법을 사용하면 됩니다.

마무리

이번 포스트에서는 파이썬의 BeautifulSoup 라이브러리를 사용하여 웹 컨텐츠를 필터링하는 방법을 알아보았습니다. BeautifulSoup은 간편하게 HTML 및 XML 문서를 파싱하고 원하는 데이터를 추출할 수 있는 강력한 도구입니다. 추출된 데이터를 기반으로 웹 스크래핑이나 데이터 분석 등 다양한 작업을 수행할 수 있습니다.

더 많은 기능과 사용 예제는 BeautifulSoup의 공식 문서를 참조하시기 바랍니다.

BeautifulSoup 공식 문서: https://www.crummy.com/software/BeautifulSoup/
BeautifulSoup CSS 선택자 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors