[python] BeautifulSoup을 사용한 웹 스크래핑 기초

이번 포스트에서는 Python의 BeautifulSoup 패키지를 사용하여 웹 페이지를 스크래핑하는 기초적인 방법에 대해 알아보겠습니다.

BeautifulSoup이란?

BeautifulSoup은 HTML 및 XML 파일에서 데이터를 추출하는 Python 라이브러리입니다. 웹 스크래핑에서 주로 사용되며, HTML 문서를 구문 분석하고 탐색하는 데 용이합니다.

라이브러리 설치

먼저, BeautifulSoup 라이브러리를 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

웹 페이지 파싱하기

웹 페이지의 HTML을 가져오고, 이를 BeautifulSoup으로 파싱하여 데이터를 추출하는 간단한 예제를 살펴보겠습니다.

from bs4 import BeautifulSoup
import requests

url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 추출하고자 하는 데이터를 찾아서 출력
print(soup.title)  # 웹 페이지의 타이틀 출력
print(soup.find_all('a'))  # 모든 링크 출력

위 예제에서는 requests 모듈을 사용하여 웹 페이지의 HTML을 가져오고, 그 HTML을 BeautifulSoup 객체로 파싱한 뒤 원하는 데이터를 추출하고 있습니다.

결론

이렇게 BeautifulSoup을 사용하면 HTML에서 데이터를 쉽게 추출할 수 있습니다. 다음 포스트에서는 조금 더 복잡한 웹 스크래핑 기술에 대해 알아보겠습니다.

많은 사람들에게 도움이 되길 바라며, 더 많은 정보를 얻고 싶다면 BeautifulSoup 공식 문서를 참고하시기 바랍니다.