[python] 파이썬의 BeautifulSoup 라이브러리를 이용한 웹 크롤링

15 Dec 2023

python

웹 크롤링은 웹페이지에서 정보를 수집하는 프로세스로, 파이썬에서는 BeautifulSoup 라이브러리를 사용하여 웹 크롤링을 할 수 있습니다.

BeautifulSoup 라이브러리란?

BeautifulSoup은 HTML 및 XML 파일에서 데이터를 추출하는 파이썬 라이브러리입니다. 웹페이지의 태그 구조를 파싱하고 원하는 데이터를 쉽게 찾을 수 있도록 도와줍니다.

웹 크롤링 예제

아래는 간단한 웹 크롤링 예제입니다. 먼저 requests 라이브러리를 사용하여 웹페이지를 요청하고, BeautifulSoup 라이브러리를 사용하여 HTML 내의 특정 데이터를 찾습니다.

import requests
from bs4 import BeautifulSoup

# 웹페이지 요청
url = 'http://example.com'
response = requests.get(url)

# BeautifulSoup를 사용하여 HTML 파싱
soup = BeautifulSoup(response.text, 'html.parser')

# 원하는 데이터 찾기
data = soup.find('div', class_='content')
print(data.text)

위 예제에서는 requests 라이브러리를 사용하여 example.com에서 웹페이지를 요청하고, BeautifulSoup를 사용하여 해당 페이지의 특정 div 태그를 찾아내고 출력합니다.

결론

BeautifulSoup 라이브러리는 파이썬을 사용하여 웹 크롤링을 할 때 매우 유용한 도구입니다. 데이터 수집 및 분석에 활용할 수 있는 다양한 정보를 쉽게 얻을 수 있습니다.

더 많은 정보는 공식 Beautiful Soup 문서를 참고하시기 바랍니다.