[python] Requests-HTML를 이용하여 웹 페이지의 동적 내용 스크래핑하기

01 Dec 2023

python

웹 스크래핑은 웹 페이지에서 데이터를 추출하는 과정을 의미합니다. 다양한 도구와 라이브러리가 있지만, Python에서 가장 인기 있는 스크래핑 도구 중 하나는 Requests-HTML입니다. Requests-HTML는 웹 페이지의 정적 및 동적 내용을 스크래핑하는 데에 탁월한 기능을 제공합니다.

Requests-HTML 설치하기

먼저, Requests-HTML 패키지를 설치해야 합니다. 파이썬 패키지 관리자인 pip를 사용하여 아래 명령을 실행합니다.

pip install requests-html

웹 페이지의 동적 내용 스크래핑하기

Requests-HTML를 사용하여 웹 페이지의 동적 내용을 스크래핑하는 방법을 살펴보겠습니다.

1. 라이브러리 임포트

Requests-HTML을 사용하기 위해 라이브러리를 임포트합니다.

from requests_html import HTMLSession

2. 세션 생성

Requests-HTML은 세션을 사용하여 웹 페이지에 접속하고 데이터를 가져옵니다. 세션 객체를 생성합니다.

session = HTMLSession()

3. 웹 페이지에 접속하기

생성한 세션 객체를 사용하여 웹 페이지에 접속합니다. get() 메서드를 사용하고, 접속하고자 하는 웹 페이지의 URL을 전달합니다.

response = session.get('https://example.com')

4. 동적 내용 스크래핑하기

접속한 웹 페이지의 동적으로 변경되는 내용을 스크래핑하기 위해 render() 메서드를 사용합니다. 이 메서드를 호출하면 JavaScript를 실행하고 동적으로 로드되는 컨텐츠를 가져올 수 있습니다.

response.html.render()

5. 데이터 추출하기

find() 메서드를 사용하여 원하는 데이터를 추출할 수 있습니다. 추출하고자 하는 내용의 HTML 태그와 선택자를 전달합니다.

element = response.html.find('h1', first=True) #=> Example Domain

6. 추출한 데이터 출력하기

원하는 데이터를 추출하였다면, 이를 출력하거나 다른 처리 작업에 활용할 수 있습니다.

print(element.text) #=> Example Domain

마무리

Requests-HTML는 웹 페이지의 동적 내용을 스크래핑하는 데에 효과적인 도구입니다. 이를 통해 웹 페이지에서 필요한 데이터를 추출하고 원하는대로 활용할 수 있습니다. Requests-HTML 문서를 참조하여 더 자세한 내용과 기능을 확인할 수 있습니다.

Requests-HTML 문서: https://requests-html.kennethreitz.org/