[python] Beautiful Soup로 웹 페이지에서 주석 추출하기

30 Nov 2023

python

웹 스크래핑을 할 때 종종 웹 페이지의 HTML 소스 코드에서 주석을 추출해야 할 때가 있습니다. 이때 Beautiful Soup라는 파이썬 라이브러리를 사용하면 쉽게 주석을 추출할 수 있습니다.

Beautiful Soup 설치하기

Beautiful Soup를 사용하기 위해서는 먼저 라이브러리를 설치해야 합니다. pip 명령을 통해 아래와 같이 설치할 수 있습니다.

pip install beautifulsoup4

Beautiful Soup를 이용한 주석 추출하기

Beautiful Soup를 사용하여 웹 페이지의 주석을 추출하려면 아래와 같은 단계를 따를 수 있습니다.

웹 페이지의 HTML 소스 코드를 가져옵니다.
Beautiful Soup 객체를 생성합니다.
find_all 메서드를 사용하여 주석을 추출합니다.

아래는 예제 코드입니다.

import requests
from bs4 import BeautifulSoup

# 웹 페이지의 HTML 소스 코드 가져오기
response = requests.get('https://www.example.com')
html = response.text

# Beautiful Soup 객체 생성
soup = BeautifulSoup(html, 'html.parser')

# 주석 추출하기
comments = soup.find_all(string=lambda text: isinstance(text, Comment))

# 추출된 주석 출력하기
for comment in comments:
    print(comment)

위 코드에서는 requests 모듈을 사용하여 웹 페이지의 HTML 소스 코드를 가져온 후, BeautifulSoup 생성자를 사용하여 Beautiful Soup 객체를 생성합니다. 그리고 find_all 메서드를 사용하여 주석을 추출합니다. 이때 string 매개변수를 사용하여 주석을 찾습니다.

추출된 주석은 반복문을 통해 출력할 수 있습니다.

결론

Beautiful Soup를 사용하면 웹 페이지의 주석을 손쉽게 추출할 수 있습니다. BeautifulSoup 라이브러리에 대한 자세한 정보는 공식 문서 (https://www.crummy.com/software/BeautifulSoup/bs4/doc/) 를 참조하시기 바랍니다.