[파이썬] `requests-html`의 내부 원리 및 구조

06 Sep 2023

requests-html

requests-html은 파이썬에서 사용되는 웹 스크레이핑 라이브러리입니다. 이 라이브러리는 BeautifulSoup과 Selenium과 같은 다른 라이브러리들과 함께 자주 사용되며, HTML 문서를 가져오고 파싱하는 작업을 쉽게 수행할 수 있게 해줍니다.

내부 원리

requests-html은 기본적으로 requests 라이브러리를 기반으로 작동합니다. requests는 HTTP 요청을 보내고 응답을 받는 기능을 제공하는 유명한 라이브러리이며, requests-html은 이 기능을 활용하여 HTML 문서를 가져옵니다.

requests-html은 HTML 문서를 가져오는 도중에 자바스크립트를 실행할 수 있습니다. 이를 가능하게 해주는 기능이 바로 HTMLSession 클래스입니다. HTMLSession은 실제 브라우저와 유사한 환경을 제공하며, 페이지의 자바스크립트를 실행하여 동적으로 생성되는 컨텐츠에 접근할 수 있습니다.

또한, requests-html은 내부적으로 lxml 파서를 사용하여 HTML 문서를 파싱합니다. lxml은 파이썬용 XML과 HTML 파서로 매우 빠르고 유연한 기능을 제공하는 인기있는 라이브러리입니다. lxml을 사용함으로써, requests-html은 HTML 문서를 효율적으로 분석하고 필요한 정보를 추출할 수 있습니다.

구조

requests-html은 몇 가지 주요한 클래스로 구성되어 있습니다. 이러한 클래스들은 다음과 같은 역할을 담당합니다:

HTMLSession: 웹 페이지와의 세션을 관리하고, 요청을 보내고 응답을 받는 기능을 제공합니다.
HTML: 가져온 HTML 문서를 파싱하고, 추출한 데이터에 접근하는 기능을 제공합니다.
Element: HTML 문서의 특정 요소에 대한 정보를 제공하고, 요소의 속성에 접근할 수 있는 기능을 제공합니다.
HTMLResponse: HTMLSession으로부터 받은 응답을 캡슐화하고, 헤더, 쿠키, 상태 코드 등의 정보에 접근할 수 있는 기능을 제공합니다.

예제 코드:

from requests_html import HTMLSession

# 세션 생성
session = HTMLSession()

# 웹 페이지 요청
response = session.get('https://www.example.com')

# HTML 파싱 및 데이터 추출
html = response.html
title = html.find('title', first=True).text

# 결과 출력
print(title)

위의 예제 코드에서는 HTMLSession을 이용하여 웹 페이지에 접속하고, response 객체를 통해 가져온 HTML 문서를 html 변수에 할당합니다. 그리고 html 객체를 통해 원하는 데이터를 추출하고, 결과를 출력합니다.

requests-html의 내부 원리와 구조를 이해하고 있으면, 이 라이브러리를 활용하여 웹 스크레이핑 작업을 효과적으로 수행할 수 있습니다.