[파이썬] Beautiful Soup 4 다양한 웹사이트의 구조 이해

06 Sep 2023

beautiful soup

웹 스크래핑은 많은 정보를 얻기 위해 인터넷 상의 웹사이트를 탐색하고 데이터를 추출하는 프로세스입니다. 이러한 웹 스크래핑 작업을 손쉽게 할 수 있도록 도와주는 파이썬 라이브러리 중 하나가 Beautiful Soup 4입니다. Beautiful Soup 4는 HTML과 XML 문서를 파싱하고 계층적 구조를 통해 데이터를 검색하는 데 사용됩니다.

Beautiful Soup 4 소개

Beautiful Soup 4는 웹 스크래핑에 유용한 다양한 기능을 제공하는 파이썬 라이브러리입니다. 이 라이브러리를 사용해 HTML과 XML 문서를 구문 분석하고, 필요한 데이터를 쉽게 추출할 수 있습니다. Beautiful Soup 4는 파이썬 내장 라이브러리인 html.parser와 lxml과 같은 외부 라이브러리를 사용하여 구문 분석 합니다.

Beautiful Soup 4를 사용하면 태그, 클래스, 속성 등을 기반으로 웹사이트의 구조를 이해하고 데이터를 추출할 수 있습니다. 이를 통해 특정 유형의 웹사이트에서 데이터를 추출하는 프로젝트를 단순화할 수 있습니다.

Beautiful Soup 4 기본 사용법

Beautiful Soup 4를 사용하기 전에 해당 라이브러리를 먼저 설치해야 합니다. 다음 명령을 사용해 Beautiful Soup 4를 설치할 수 있습니다:

pip install beautifulsoup4

Beautiful Soup 4를 사용하기 위해 다음과 같이 라이브러리를 가져와야 합니다:

from bs4 import BeautifulSoup

Beautiful Soup 4를 사용하여 웹페이지를 구문 분석하고 데이터를 추출하는 일반적인 절차는 다음과 같습니다:

웹페이지의 HTML 소스 코드를 가져옵니다.
BeautifulSoup 객체를 생성하고, 첫 번째 매개변수로는 HTML 소스 코드를, 두 번째 매개변수로는 사용할 파서를 지정합니다 (기본값은 html.parser입니다).
BeautifulSoup 객체에서 원하는 데이터를 추출하기 위해 태그, 클래스, 속성 등을 사용합니다.

다음은 예시 코드입니다:

import requests
from bs4 import BeautifulSoup

# 웹페이지의 HTML 소스 코드 가져오기
url = "https://www.example.com"
response = requests.get(url)
html_source = response.text

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html_source, "html.parser")

# 태그를 기반으로 데이터 추출
title = soup.find("h1").text
print(title)

# 클래스를 기반으로 데이터 추출
paragraphs = soup.find_all("p", class_="content")
for p in paragraphs:
    print(p.text)

위의 예시 코드에서는 requests 라이브러리를 사용하여 웹페이지의 HTML 소스 코드를 가져온 후, BeautifulSoup 객체를 생성하고 태그와 클래스를 이용해 데이터를 추출하는 방법을 보여줍니다.

Beautiful Soup을 활용한 웹 스크래핑 프로젝트

이제 Beautiful Soup 4를 사용하여 실제 웹 스크래핑 프로젝트를 구현하는 방법을 알아보겠습니다. 예를 들어, 인기 있는 뉴스 웹사이트에서 헤드라인 뉴스를 추출하는 프로젝트를 수행해보겠습니다.

import requests
from bs4 import BeautifulSoup

# 웹페이지의 HTML 소스 코드 가져오기
url = "https://www.example-news.com"
response = requests.get(url)
html_source = response.text

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html_source, "html.parser")

# 헤드라인 뉴스 추출
headlines = soup.find_all("h2", class_="headline")
for headline in headlines:
    print(headline.text)

위의 예시 코드에서는 requests 라이브러리를 사용하여 뉴스 웹사이트의 HTML 소스 코드를 가져온 후, BeautifulSoup 객체를 생성하고 헤드라인 뉴스를 추출하는 방법을 보여줍니다.

결론

Beautiful Soup 4는 다양한 웹사이트의 구조를 이해하고 데이터를 추출하는 웹 스크래핑 작업을 단순화하는 데 도움이 되는 파이썬 라이브러리입니다. 이를 사용하면 HTML과 XML 문서를 파싱하고 계층적 구조를 통해 데이터를 검색할 수 있습니다. 위에서 설명한 예시 코드와 기본 사용법을 통해 Beautiful Soup 4를 익히고, 웹 스크래핑 프로젝트를 시작해 보세요.