[python] 파이썬 Beautiful Soup를 사용하여 웹 페이지 데이터 추출하기

30 Nov 2023

python

웹 스크래핑은 웹 페이지에서 데이터를 추출하는 프로세스를 의미합니다. 파이썬은 Beautiful Soup라는 라이브러리를 사용하여 웹 스크래핑 작업을 수행할 수 있습니다. Beautiful Soup는 HTML 및 XML 문서에서 데이터를 추출하는 데에 특화된 파이썬 라이브러리입니다.

Beautiful Soup 설치하기

Beautiful Soup를 사용하기 위해서는 먼저 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 Beautiful Soup를 설치할 수 있습니다.

pip install beautifulsoup4

웹 페이지 데이터 추출하기

Beautiful Soup를 사용하여 웹 페이지에서 데이터를 추출하는 과정은 다음과 같습니다.

웹 페이지에 접속합니다. 이를 위해서는 requests 라이브러리를 사용하여 HTTP 요청을 보내야 합니다. 다음은 예시 코드입니다.

import requests

url = "https://example.com"
response = requests.get(url)

HTTP 요청의 응답으로 받은 데이터를 Beautiful Soup에 전달합니다. 이를 위해서는 BeautifulSoup 객체를 생성해야 합니다. 다음은 예시 코드입니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.content, "html.parser")

Beautiful Soup 객체를 사용하여 원하는 데이터를 찾습니다. 다음은 여러 가지 메소드를 사용하여 웹 페이지에서 데이터를 추출하는 예시입니다.

# 특정 태그를 가진 요소를 찾습니다.
title = soup.find("h1").text

# 클래스가 "content"인 요소를 찾습니다.
content = soup.find(class_="content").text

# 모든 링크를 찾습니다.
links = soup.find_all("a")
for link in links:
    print(link["href"])

결론

Beautiful Soup를 사용하면 파이썬으로 웹 페이지 데이터 스크래핑을 간단하게 할 수 있습니다. 이를 통해 웹에서 필요한 데이터를 추출하여 자신의 프로젝트나 분석에 활용할 수 있습니다.

참고 자료

Beautiful Soup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
Requests 공식 문서: https://requests.readthedocs.io/en/latest/