[python] 파이썬 Beautiful Soup를 사용하여 웹 페이지 데이터 추출하기
웹 스크래핑은 웹 페이지에서 데이터를 추출하는 프로세스를 의미합니다. 파이썬은 Beautiful Soup라는 라이브러리를 사용하여 웹 스크래핑 작업을 수행할 수 있습니다. Beautiful Soup는 HTML 및 XML 문서에서 데이터를 추출하는 데에 특화된 파이썬 라이브러리입니다.
Beautiful Soup 설치하기
Beautiful Soup를 사용하기 위해서는 먼저 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 Beautiful Soup를 설치할 수 있습니다.
pip install beautifulsoup4
웹 페이지 데이터 추출하기
Beautiful Soup를 사용하여 웹 페이지에서 데이터를 추출하는 과정은 다음과 같습니다.
- 웹 페이지에 접속합니다. 이를 위해서는
requests
라이브러리를 사용하여 HTTP 요청을 보내야 합니다. 다음은 예시 코드입니다.
import requests
url = "https://example.com"
response = requests.get(url)
- HTTP 요청의 응답으로 받은 데이터를 Beautiful Soup에 전달합니다. 이를 위해서는
BeautifulSoup
객체를 생성해야 합니다. 다음은 예시 코드입니다.
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.content, "html.parser")
- Beautiful Soup 객체를 사용하여 원하는 데이터를 찾습니다. 다음은 여러 가지 메소드를 사용하여 웹 페이지에서 데이터를 추출하는 예시입니다.
# 특정 태그를 가진 요소를 찾습니다.
title = soup.find("h1").text
# 클래스가 "content"인 요소를 찾습니다.
content = soup.find(class_="content").text
# 모든 링크를 찾습니다.
links = soup.find_all("a")
for link in links:
print(link["href"])
결론
Beautiful Soup를 사용하면 파이썬으로 웹 페이지 데이터 스크래핑을 간단하게 할 수 있습니다. 이를 통해 웹에서 필요한 데이터를 추출하여 자신의 프로젝트나 분석에 활용할 수 있습니다.
참고 자료
- Beautiful Soup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- Requests 공식 문서: https://requests.readthedocs.io/en/latest/