[python] Beautiful Soup로 웹 페이지에서 스크립트 코드 추출하기

30 Nov 2023

python

Beautiful Soup은 파이썬의 웹 크롤링 라이브러리로서, 웹 페이지의 HTML 및 XML 구조를 파싱하여 원하는 데이터를 추출하는데 유용합니다. 이번에는 Beautiful Soup을 사용하여 웹 페이지에서 스크립트 코드를 추출하는 방법을 알아보겠습니다.

1. BeautifulSoup 설치하기

먼저, Beautiful Soup을 설치해야 합니다. 아래 명령어를 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

2. 웹 페이지 다운로드하기

Beautiful Soup을 사용하기 전에 웹 페이지를 다운로드해야 합니다. requests 라이브러리를 사용하여 다음과 같이 웹 페이지를 다운로드할 수 있습니다.

import requests

url = "https://example.com"
response = requests.get(url)
html_content = response.text

3. BeautifulSoup으로 파싱하기

원하는 스크립트 코드를 추출하기 위해 Beautiful Soup으로 HTML 코드를 파싱합니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, "html.parser")

4. 스크립트 코드 추출하기

Beautiful Soup로 파싱한 HTML에서 스크립트 코드를 추출합니다. find_all 메서드를 사용하여 모든 <script> 태그를 찾고, get_text 메서드로 태그 내부의 텍스트를 추출합니다.

scripts = soup.find_all("script")
for script in scripts:
    script_code = script.get_text()
    print(script_code)

완성된 예제 코드

import requests
from bs4 import BeautifulSoup

url = "https://example.com"
response = requests.get(url)
html_content = response.text

soup = BeautifulSoup(html_content, "html.parser")

scripts = soup.find_all("script")
for script in scripts:
    script_code = script.get_text()
    print(script_code)

이렇게 하면 Beautiful Soup을 사용하여 웹 페이지에서 스크립트 코드를 추출할 수 있습니다.

참고 자료

Beautiful Soup 공식 문서