[python] Requests-HTML를 사용하여 웹 페이지의 특정 스크립트 추출하기
웹 페이지의 스크립트를 추출하는 것은 웹 스크래핑과 데이터 수집에 매우 유용한 작업입니다. 이번에는 파이썬의 Requests-HTML 라이브러리를 사용하여 웹 페이지의 특정 스크립트를 추출하는 방법에 대해 알아보겠습니다.
Requests-HTML 라이브러리 설치
Requests-HTML을 사용하기 위해 먼저 해당 라이브러리를 설치해야 합니다. 아래의 명령을 사용하여 설치할 수 있습니다.
pip install requests-html
코드 예시
이제 Requests-HTML을 사용하여 웹 페이지의 특정 스크립트를 추출하는 코드를 작성해보겠습니다.
from requests_html import HTMLSession
# 추출할 웹 페이지 URL
url = "https://example.com"
# 새로운 HTML 세션 생성
session = HTMLSession()
# 웹 페이지 요청 및 렌더링
r = session.get(url)
r.html.render()
# 페이지의 모든 스크립트 요소 추출
scripts = r.html.find("script")
# 추출한 스크립트 출력
for script in scripts:
print(script.text)
위의 코드에서는 Requests-HTML의 HTMLSession()
클래스를 사용하여 새로운 세션을 만들고, 지정한 URL로 웹 페이지를 요청한 다음 렌더링합니다. 그 후 페이지에서 모든 스크립트 요소를 찾아 출력합니다.