[python] Requests-HTML로 웹 페이지의 RSS 피드 추출하기

01 Dec 2023

python

이번 포스트에서는 Python의 Requests-HTML 라이브러리를 사용하여 웹 페이지에서 RSS 피드를 추출하는 방법을 알아보겠습니다.

1. Requests-HTML 라이브러리 설치하기

먼저, Requests-HTML 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치합니다.

pip install requests-html

2. 웹 페이지의 RSS 피드 URL 추출하기

Requests-HTML을 사용하여 웹 페이지의 HTML을 가져오고, 그 안에서 RSS 피드 URL을 추출할 수 있습니다. 아래의 코드 예제를 참고해보세요.

from requests_html import HTMLSession

# HTML 세션 생성
session = HTMLSession()

# 웹 페이지 가져오기
response = session.get('https://example.com')

# HTML 문서 파싱
response.html.render()

# RSS 피드 URL 추출
rss_links = response.html.links('rss.xml')

# 추출한 RSS 피드 URL 출력
for link in rss_links:
    print(link)

위의 코드를 사용하면 https://example.com 웹 페이지의 RSS 피드 URL을 추출할 수 있습니다.

3. 추출한 RSS 피드 사용하기

추출한 RSS 피드 URL을 사용하여 원하는 작업을 수행할 수 있습니다. 예를 들어, feedparser 라이브러리를 사용하여 RSS 피드를 파싱하고 각 항목의 제목을 출력하는 코드는 다음과 같습니다.

import feedparser

# RSS 피드 URL
rss_url = 'https://example.com/rss.xml'

# RSS 피드 가져오기
feed = feedparser.parse(rss_url)

# 각 항목의 제목 출력
for entry in feed.entries:
    print(entry.title)

위의 코드를 사용하면 추출한 RSS 피드의 제목을 출력할 수 있습니다.

요약

Requests-HTML을 사용하여 웹 페이지의 RSS 피드를 추출하는 방법을 알아보았습니다. 앞서 언급한 코드를 사용하면 다른 웹 페이지의 RSS 피드도 쉽게 추출할 수 있습니다.

더 많은 Requests-HTML의 기능과 사용법은 공식 문서를 참고하시기 바랍니다.

Requests-HTML 문서: https://docs.python-requests.org/projects/requests-html/
feedparser 문서: https://pythonhosted.org/feedparser/