[python] 파이썬 BeautifulSoup으로 웹 사이트 크롤러 만들기

04 Dec 2023

python

웹 크롤러는 인터넷에서 데이터를 수집하기 위해 사용되는 프로그램입니다. 파이썬에서는 BeautifulSoup 라이브러리를 사용하여 웹 사이트 크롤러를 만들 수 있습니다. BeautifulSoup은 HTML과 XML 문서를 파싱하고 원하는 데이터를 추출하는 데 사용됩니다.

BeautifulSoup 설치하기

먼저, BeautifulSoup을 설치해야 합니다. 다음 명령어를 사용하여 터미널에서 BeautifulSoup을 설치할 수 있습니다.

pip install beautifulsoup4

웹 사이트 크롤러 만들기

이제 파이썬 코드로 웹 사이트 크롤러를 만들어보겠습니다. 다음은 간단한 예제입니다.

import requests
from bs4 import BeautifulSoup

# 크롤링할 웹 사이트의 URL 지정
url = "https://example.com"

# 웹 사이트에 GET 요청을 보내서 HTML 문서 가져오기
response = requests.get(url)

# BeautifulSoup 객체 생성
soup = BeautifulSoup(response.text, "html.parser")

# 원하는 데이터 추출하기
title = soup.title.text
print("웹 사이트 제목:", title)

# 링크 추출하기
links = soup.find_all("a")
for link in links:
    print("링크:", link["href"])

이 코드는 “https://example.com” 웹 사이트에서 제목과 링크를 추출합니다. requests 모듈을 사용하여 웹 사이트에 GET 요청을 보내고, BeautifulSoup 객체를 생성하여 HTML 문서를 파싱합니다. 그 후 soup 객체의 다양한 메서드를 사용하여 원하는 데이터를 추출할 수 있습니다.

참고 자료

BeautifulSoup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
파이썬 공식 문서: https://docs.python.org/3/
requests 라이브러리: https://requests.readthedocs.io/en/latest/