[python] Requests-HTML를 사용하여 웹 페이지의 특정 스크립트 추출하기

01 Dec 2023

python

웹 페이지의 스크립트를 추출하는 것은 웹 스크래핑과 데이터 수집에 매우 유용한 작업입니다. 이번에는 파이썬의 Requests-HTML 라이브러리를 사용하여 웹 페이지의 특정 스크립트를 추출하는 방법에 대해 알아보겠습니다.

Requests-HTML 라이브러리 설치

Requests-HTML을 사용하기 위해 먼저 해당 라이브러리를 설치해야 합니다. 아래의 명령을 사용하여 설치할 수 있습니다.

pip install requests-html

코드 예시

이제 Requests-HTML을 사용하여 웹 페이지의 특정 스크립트를 추출하는 코드를 작성해보겠습니다.

from requests_html import HTMLSession

# 추출할 웹 페이지 URL
url = "https://example.com"

# 새로운 HTML 세션 생성
session = HTMLSession()

# 웹 페이지 요청 및 렌더링
r = session.get(url)
r.html.render()

# 페이지의 모든 스크립트 요소 추출
scripts = r.html.find("script")

# 추출한 스크립트 출력
for script in scripts:
    print(script.text)

위의 코드에서는 Requests-HTML의 HTMLSession() 클래스를 사용하여 새로운 세션을 만들고, 지정한 URL로 웹 페이지를 요청한 다음 렌더링합니다. 그 후 페이지에서 모든 스크립트 요소를 찾아 출력합니다.

참고 자료

Requests-HTML 공식 문서