[python] Beautiful Soup로 웹 페이지에서 주석 추출하기
웹 스크래핑을 할 때 종종 웹 페이지의 HTML 소스 코드에서 주석을 추출해야 할 때가 있습니다. 이때 Beautiful Soup라는 파이썬 라이브러리를 사용하면 쉽게 주석을 추출할 수 있습니다.
Beautiful Soup 설치하기
Beautiful Soup를 사용하기 위해서는 먼저 라이브러리를 설치해야 합니다. pip
명령을 통해 아래와 같이 설치할 수 있습니다.
pip install beautifulsoup4
Beautiful Soup를 이용한 주석 추출하기
Beautiful Soup를 사용하여 웹 페이지의 주석을 추출하려면 아래와 같은 단계를 따를 수 있습니다.
- 웹 페이지의 HTML 소스 코드를 가져옵니다.
- Beautiful Soup 객체를 생성합니다.
find_all
메서드를 사용하여 주석을 추출합니다.
아래는 예제 코드입니다.
import requests
from bs4 import BeautifulSoup
# 웹 페이지의 HTML 소스 코드 가져오기
response = requests.get('https://www.example.com')
html = response.text
# Beautiful Soup 객체 생성
soup = BeautifulSoup(html, 'html.parser')
# 주석 추출하기
comments = soup.find_all(string=lambda text: isinstance(text, Comment))
# 추출된 주석 출력하기
for comment in comments:
print(comment)
위 코드에서는 requests
모듈을 사용하여 웹 페이지의 HTML 소스 코드를 가져온 후, BeautifulSoup
생성자를 사용하여 Beautiful Soup 객체를 생성합니다. 그리고 find_all
메서드를 사용하여 주석을 추출합니다. 이때 string
매개변수를 사용하여 주석을 찾습니다.
추출된 주석은 반복문을 통해 출력할 수 있습니다.
결론
Beautiful Soup를 사용하면 웹 페이지의 주석을 손쉽게 추출할 수 있습니다. BeautifulSoup 라이브러리에 대한 자세한 정보는 공식 문서 (https://www.crummy.com/software/BeautifulSoup/bs4/doc/) 를 참조하시기 바랍니다.