[파이썬] requests-html 페이지의 소스코드 보기

06 Sep 2023

requests-html

이 블로그 포스트에서는 파이썬의 requests-html 라이브러리를 사용하여 웹 페이지의 소스 코드를 가져오는 방법을 살펴보겠습니다.

requests-html 라이브러리 소개

requests-html은 웹 스크래핑 및 웹 페이지 파싱에 유용한 파이썬 라이브러리입니다. 이 라이브러리는 HTTP 요청과 같은 기본적인 웹 요청을 처리하는 requests 라이브러리와 함께 사용할 수 있으며, 실제 웹 페이지에서 JavaScript 실행, 동적 콘텐츠 로딩 등을 처리하는 기능을 제공합니다.

페이지의 소스 코드 가져오기

requests-html을 사용하여 웹 페이지의 소스 코드를 가져오는 과정은 간단합니다. 먼저 requests-html 라이브러리를 설치하고 import 합니다.

pip install requests-html

from requests_html import HTMLSession

다음으로 사용하려는 웹 페이지의 URL을 지정하고, HTMLSession 객체를 만듭니다.

url = "https://example.com"
session = HTMLSession()
response = session.get(url)

이제 response 객체에서 html 속성을 사용하여 웹 페이지의 소스 코드에 접근할 수 있습니다.

source_code = response.html
print(source_code)

예제 코드

아래는 구체적인 예제 코드입니다. https://example.com 웹 페이지의 소스 코드를 가져와 출력하는 코드입니다.

from requests_html import HTMLSession

url = "https://example.com"
session = HTMLSession()
response = session.get(url)

source_code = response.html
print(source_code)

위의 예제 코드를 실행하면 웹 페이지의 소스 코드가 출력됩니다.

결론

requests-html 라이브러리를 사용하여 파이썬으로 웹 페이지의 소스 코드를 가져오는 방법을 살펴보았습니다. 이를 통해 웹 스크래핑 및 웹 페이지 파싱 작업을 더 쉽게 수행할 수 있습니다. 이 라이브러리의 다양한 기능을 활용하여 웹 데이터를 효율적으로 수집하고 분석하는데 활용해보세요.