[python] 파이썬 BeautifulSoup으로 웹 사이트 크롤러 만들기
웹 크롤러는 인터넷에서 데이터를 수집하기 위해 사용되는 프로그램입니다. 파이썬에서는 BeautifulSoup 라이브러리를 사용하여 웹 사이트 크롤러를 만들 수 있습니다. BeautifulSoup은 HTML과 XML 문서를 파싱하고 원하는 데이터를 추출하는 데 사용됩니다.
BeautifulSoup 설치하기
먼저, BeautifulSoup을 설치해야 합니다. 다음 명령어를 사용하여 터미널에서 BeautifulSoup을 설치할 수 있습니다.
pip install beautifulsoup4
웹 사이트 크롤러 만들기
이제 파이썬 코드로 웹 사이트 크롤러를 만들어보겠습니다. 다음은 간단한 예제입니다.
import requests
from bs4 import BeautifulSoup
# 크롤링할 웹 사이트의 URL 지정
url = "https://example.com"
# 웹 사이트에 GET 요청을 보내서 HTML 문서 가져오기
response = requests.get(url)
# BeautifulSoup 객체 생성
soup = BeautifulSoup(response.text, "html.parser")
# 원하는 데이터 추출하기
title = soup.title.text
print("웹 사이트 제목:", title)
# 링크 추출하기
links = soup.find_all("a")
for link in links:
print("링크:", link["href"])
이 코드는 “https://example.com” 웹 사이트에서 제목과 링크를 추출합니다. requests
모듈을 사용하여 웹 사이트에 GET 요청을 보내고, BeautifulSoup
객체를 생성하여 HTML 문서를 파싱합니다. 그 후 soup
객체의 다양한 메서드를 사용하여 원하는 데이터를 추출할 수 있습니다.
참고 자료
- BeautifulSoup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- 파이썬 공식 문서: https://docs.python.org/3/
- requests 라이브러리: https://requests.readthedocs.io/en/latest/