[python] Requests-HTML를 활용한 웹 페이지의 HTTP 요청 및 응답 처리

01 Dec 2023

python

Requests-HTML은 Python에서 HTTP 요청을 보내고 웹 페이지의 응답을 처리하는 데 사용되는 라이브러리입니다. 이 라이브러리는 좀 더 편리한 방식으로 웹 페이지 스크레이핑을 할 수 있도록 도와줍니다. 이제 Requests-HTML를 사용하여 웹 페이지의 HTTP 요청과 응답을 처리하는 방법을 알아보겠습니다.

설치

먼저, Requests-HTML를 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다.

pip install requests-html

HTTP 요청 및 응답 처리

Requests-HTML를 사용하려면, 다음과 같이 모듈을 임포트해야 합니다.

from requests_html import HTMLSession

HTMLSession 객체를 생성하여 웹 페이지에 대한 세션을 만들고, get 메서드를 사용하여 웹 페이지에 대한 GET 요청을 보낼 수 있습니다.

session = HTMLSession()
response = session.get('https://www.example.com')

response 객체는 웹 페이지의 응답을 나타냅니다. 이 객체에서는 다양한 메서드를 사용하여 웹 페이지의 내용을 가져올 수 있습니다. 가장 일반적인 메서드 중 하나는 text입니다. 이를 사용하여 웹 페이지의 텍스트 콘텐츠를 가져올 수 있습니다.

content = response.text

content 변수에는 웹 페이지의 텍스트 콘텐츠가 저장됩니다.

또한, Requests-HTML는 CSS 선택자를 사용하여 웹 페이지의 요소를 선택할 수 있는 기능을 제공합니다. find 메서드를 사용하여 원하는 요소를 선택할 수 있습니다.

elements = response.html.find('.my-class')

위의 예제에서는 클래스가 “my-class”인 요소들을 선택합니다. 선택한 요소들은 elements 변수에 저장됩니다.

결론

Requests-HTML를 사용하면 Python으로 웹 페이지의 HTTP 요청을 보내고 응답을 처리하는 작업이 훨씬 간단해집니다. 이 라이브러리를 사용하여 웹 스크레이핑 작업을 수행할 때 유용하게 활용할 수 있습니다.

참고 자료

Requests-HTML 공식 문서: https://docs.python-requests.org/en/latest/user/advanced/#requests-html