[python] Requests-HTML로 웹 페이지의 RSS 피드 추출하기
이번 포스트에서는 Python의 Requests-HTML 라이브러리를 사용하여 웹 페이지에서 RSS 피드를 추출하는 방법을 알아보겠습니다.
1. Requests-HTML 라이브러리 설치하기
먼저, Requests-HTML 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치합니다.
pip install requests-html
2. 웹 페이지의 RSS 피드 URL 추출하기
Requests-HTML을 사용하여 웹 페이지의 HTML을 가져오고, 그 안에서 RSS 피드 URL을 추출할 수 있습니다. 아래의 코드 예제를 참고해보세요.
from requests_html import HTMLSession
# HTML 세션 생성
session = HTMLSession()
# 웹 페이지 가져오기
response = session.get('https://example.com')
# HTML 문서 파싱
response.html.render()
# RSS 피드 URL 추출
rss_links = response.html.links('rss.xml')
# 추출한 RSS 피드 URL 출력
for link in rss_links:
print(link)
위의 코드를 사용하면 https://example.com
웹 페이지의 RSS 피드 URL을 추출할 수 있습니다.
3. 추출한 RSS 피드 사용하기
추출한 RSS 피드 URL을 사용하여 원하는 작업을 수행할 수 있습니다. 예를 들어, feedparser
라이브러리를 사용하여 RSS 피드를 파싱하고 각 항목의 제목을 출력하는 코드는 다음과 같습니다.
import feedparser
# RSS 피드 URL
rss_url = 'https://example.com/rss.xml'
# RSS 피드 가져오기
feed = feedparser.parse(rss_url)
# 각 항목의 제목 출력
for entry in feed.entries:
print(entry.title)
위의 코드를 사용하면 추출한 RSS 피드의 제목을 출력할 수 있습니다.
요약
Requests-HTML을 사용하여 웹 페이지의 RSS 피드를 추출하는 방법을 알아보았습니다. 앞서 언급한 코드를 사용하면 다른 웹 페이지의 RSS 피드도 쉽게 추출할 수 있습니다.
더 많은 Requests-HTML의 기능과 사용법은 공식 문서를 참고하시기 바랍니다.
- Requests-HTML 문서: https://docs.python-requests.org/projects/requests-html/
- feedparser 문서: https://pythonhosted.org/feedparser/