[python] Beautiful Soup로 웹 페이지에서 스크립트 코드 추출하기
Beautiful Soup은 파이썬의 웹 크롤링 라이브러리로서, 웹 페이지의 HTML 및 XML 구조를 파싱하여 원하는 데이터를 추출하는데 유용합니다. 이번에는 Beautiful Soup을 사용하여 웹 페이지에서 스크립트 코드를 추출하는 방법을 알아보겠습니다.
1. BeautifulSoup 설치하기
먼저, Beautiful Soup을 설치해야 합니다. 아래 명령어를 사용하여 설치할 수 있습니다.
pip install beautifulsoup4
2. 웹 페이지 다운로드하기
Beautiful Soup을 사용하기 전에 웹 페이지를 다운로드해야 합니다. requests
라이브러리를 사용하여 다음과 같이 웹 페이지를 다운로드할 수 있습니다.
import requests
url = "https://example.com"
response = requests.get(url)
html_content = response.text
3. BeautifulSoup으로 파싱하기
원하는 스크립트 코드를 추출하기 위해 Beautiful Soup으로 HTML 코드를 파싱합니다.
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, "html.parser")
4. 스크립트 코드 추출하기
Beautiful Soup로 파싱한 HTML에서 스크립트 코드를 추출합니다. find_all
메서드를 사용하여 모든 <script>
태그를 찾고, get_text
메서드로 태그 내부의 텍스트를 추출합니다.
scripts = soup.find_all("script")
for script in scripts:
script_code = script.get_text()
print(script_code)
완성된 예제 코드
import requests
from bs4 import BeautifulSoup
url = "https://example.com"
response = requests.get(url)
html_content = response.text
soup = BeautifulSoup(html_content, "html.parser")
scripts = soup.find_all("script")
for script in scripts:
script_code = script.get_text()
print(script_code)
이렇게 하면 Beautiful Soup을 사용하여 웹 페이지에서 스크립트 코드를 추출할 수 있습니다.