[python] Requests-HTML를 이용하여 웹 페이지의 메타 데이터 추출하기
이 블로그 포스트에서는 Python의 Requests-HTML 라이브러리를 사용하여 웹 페이지의 메타 데이터를 추출하는 방법을 알아보겠습니다.
필요한 패키지 설치
먼저, Requests-HTML 패키지를 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.
pip install requests-html
코드 예시
다음은 Requests-HTML를 사용하여 웹 페이지의 메타 데이터를 추출하는 간단한 예시 코드입니다. 이 코드는 특정 웹 페이지의 메타 데이터 중에서 title
, description
, keywords
를 추출합니다.
from requests_html import HTMLSession
# 웹 페이지의 URL을 지정합니다.
url = "https://www.example.com"
# HTMLSession 객체를 생성합니다.
session = HTMLSession()
# URL에 대한 GET 요청을 보냅니다.
response = session.get(url)
# 메타 데이터를 추출합니다.
title = response.html.find("title", first=True).text
description = response.html.xpath("//meta[@name='description']/@content", first=True)
keywords = response.html.xpath("//meta[@name='keywords']/@content", first=True)
# 추출한 메타 데이터를 출력합니다.
print("Title:", title)
print("Description:", description)
print("Keywords:", keywords)
결과 예시
위의 코드를 실행하면 다음과 같은 결과를 얻을 수 있습니다.
Title: Example Website
Description: This is an example website.
Keywords: example, website, meta data
이 예시 코드를 사용하여 웹 페이지의 메타 데이터를 추출할 수 있습니다.
결론
Requests-HTML를 사용하면 Python으로 웹 페이지의 메타 데이터를 간편하게 추출할 수 있습니다. 이를 활용하여 웹 크롤링, SEO 분석 등 다양한 작업에 활용할 수 있습니다. 추가로 Requests-HTML의 다른 기능과 활용 방법에 대해 알아보고 싶다면 공식 문서를 참고하세요.