[파이썬] Beautiful Soup 4 소개

06 Sep 2023

beautiful soup

Beautiful Soup

Beautiful Soup는 Python 웹 스크래핑(웹페이지 데이터 추출)을 위한 강력하고 유연한 라이브러리입니다. HTML과 XML 문서를 파싱하여 트리 구조로 나타내주며, 이를 통해 데이터를 쉽게 탐색하고 추출할 수 있습니다.

Beautiful Soup 4 버전은 기존 Beautiful Soup 3보다 사용성과 퍼포먼스가 향상되었습니다. 그러므로, Python 개발자들에게는 웹 스크래핑 작업에 있어서 매우 유용한 도구로 알려져 있습니다.

Beautiful Soup 4 사용하기

먼저, Beautiful Soup를 사용하기 위해서는 해당 패키지를 내려받아야 합니다. 다음은 pip 명령어를 이용하여 설치하는 방법입니다.

pip install beautifulsoup4

Beautiful Soup 4를 사용하기 위해 다음과 같은 코드를 작성해보겠습니다.

from bs4 import BeautifulSoup
import requests

# URL로부터 HTML 가져오기
url = "https://www.example.com"
response = requests.get(url)
html = response.text

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, 'html.parser')

# 원하는 데이터 추출하기
title = soup.title.text
print("Title:", title)

# 특정 태그 검색하기
first_paragraph = soup.p.text
print("First Paragraph:", first_paragraph)

위의 코드는 예시로, https://www.example.com에서 HTML을 가져와서 제목과 첫 번째 단락을 출력하는 간단한 작업을 수행합니다.

Beautiful Soup에서는 CSS 선택자, 정규 표현식 등을 이용하여 원하는 데이터를 추출할 수 있습니다. 이를 통해 웹페이지에서 필요한 정보를 뽑아내어 데이터 분석, 인공지능 모델 학습 등에 활용할 수 있습니다.

Beautiful Soup에 대한 더 자세한 사용법은 공식 문서를 참고하시기 바랍니다.