[python] 파이썬 웹 스크래핑을 위한 Requests-HTML 사용법

01 Dec 2023

python

웹 스크래핑은 인터넷에서 데이터를 수집하거나 추출하는 프로세스를 의미합니다. 파이썬에서 웹 스크래핑을 하는데에는 다양한 라이브러리가 있지만, 그 중 Requests-HTML은 쉽고 간단하게 웹 페이지에서 데이터를 추출할 수 있는 도구입니다.

Requests-HTML 소개

Requests-HTML은 파이썬의 라이브러리인 Requests와 HTML을 파싱하기 위한 인터페이스인 HTMLSession을 결합한 것입니다. 이를 통해 HTTP 요청을 보내고, 응답으로 받은 HTML 문서를 파싱하여 원하는 데이터를 추출할 수 있습니다.

설치

Requests-HTML는 파이썬 패키지 매니저인 pip을 통해 간단히 설치할 수 있습니다. 다음 명령을 실행하여 설치할 수 있습니다.

$ pip install requests-html

기본 사용법

Requests-HTML은 다른 웹 스크래핑 라이브러리와 비교하여 매우 간단하게 사용할 수 있습니다. 다음은 Requests-HTML을 사용하여 웹 페이지의 제목을 가져오는 예제입니다.

from requests_html import HTMLSession

# Requests-HTML 세션 생성
session = HTMLSession()

# 웹 페이지 가져오기
response = session.get('https://example.com')

# 제목 가져오기
title = response.html.xpath('//title')[0].text

print(title)

위 예제에서는 session.get() 함수를 사용하여 웹 페이지를 가져옵니다. 그리고 response.html.xpath() 함수를 사용하여 XPath를 이용해 웹 페이지의 제목을 추출합니다.

기능

Requests-HTML은 다양한 기능을 제공합니다. 이를 통해 다음과 같은 작업을 수행할 수 있습니다.

CSS 선택자를 사용한 요소 추출
자바스크립트 렌더링을 통한 동적 웹 페이지 스크래핑
웹 페이지의 링크 추출
웹 페이지의 이미지 다운로드 등

더 자세한 사용법은 Requests-HTML의 공식 문서를 참고하시기 바랍니다.

마무리

파이썬 웹 스크래핑을 위한 Requests-HTML의 간단한 사용법에 대해 알아보았습니다. 이를 통해 간편하게 웹 페이지에서 데이터를 추출할 수 있습니다. 웹 스크래핑은 사용에 주의하여 부정적인 영향을 끼칠 수 있으므로, 합법적인 용도로 사용하는 것을 권장합니다.

참고문서: Requests-HTML 공식 문서