[python] Requests-HTML를 이용하여 웹 페이지의 게시물 추출하기

01 Dec 2023

python

이번에는 Python의 Requests-HTML 라이브러리를 사용하여 웹 페이지에서 게시물을 추출하는 방법에 대해 알아보겠습니다.

Requests-HTML이란?

Requests-HTML은 Python의 Requests 라이브러리와 HTML을 파싱하기 위한 기능을 제공하는 HTMLSession 클래스의 조합입니다. 이 라이브러리를 사용하면 간편하게 웹 페이지의 HTML을 가져오고 원하는 정보를 추출할 수 있습니다.

설치하기

먼저, Requests-HTML을 설치해야 합니다. 아래의 명령어를 사용하여 설치하세요.

pip install requests-html

사용하기

다음은 Requests-HTML을 사용하여 웹 페이지의 게시물을 추출하는 간단한 예제입니다.

from requests_html import HTMLSession

# HTML 세션 생성
session = HTMLSession()

# 웹 페이지 가져오기
r = session.get('https://www.example.com')

# CSS 선택자를 사용하여 게시물 추출
articles = r.html.find('.post')

# 게시물 출력
for article in articles:
    title = article.find('.title', first=True).text
    content = article.find('.content', first=True).text
    print(f'Title: {title}')
    print(f'Content: {content}')

위의 코드에서는 HTMLSession을 사용하여 HTML 세션을 생성한 후, get() 메서드를 사용하여 웹 페이지의 HTML을 가져옵니다. 이후 CSS 선택자를 사용하여 원하는 게시물 요소를 추출하고, 제목과 내용을 출력합니다.

위의 예제 코드를 실행하면 해당 웹 페이지에서 게시물의 제목과 내용을 추출하여 출력할 수 있습니다.

요약

이번 글에서는 Requests-HTML을 사용하여 웹 페이지의 게시물을 추출하는 방법을 알아보았습니다. Requests-HTML은 Python에서 HtmlSession을 사용하여 HTML을 가져오고 추출하는 작업을 간단하게 처리할 수 있는 도구입니다.

더 자세한 내용은 Requests-HTML 공식 문서를 참조하세요.