[python] Requests-HTML를 이용하여 웹 페이지의 메타 데이터 추출하기

01 Dec 2023

python

이 블로그 포스트에서는 Python의 Requests-HTML 라이브러리를 사용하여 웹 페이지의 메타 데이터를 추출하는 방법을 알아보겠습니다.

필요한 패키지 설치

먼저, Requests-HTML 패키지를 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.

pip install requests-html

코드 예시

다음은 Requests-HTML를 사용하여 웹 페이지의 메타 데이터를 추출하는 간단한 예시 코드입니다. 이 코드는 특정 웹 페이지의 메타 데이터 중에서 title, description, keywords를 추출합니다.

from requests_html import HTMLSession

# 웹 페이지의 URL을 지정합니다.
url = "https://www.example.com"

# HTMLSession 객체를 생성합니다.
session = HTMLSession()

# URL에 대한 GET 요청을 보냅니다.
response = session.get(url)

# 메타 데이터를 추출합니다.
title = response.html.find("title", first=True).text
description = response.html.xpath("//meta[@name='description']/@content", first=True)
keywords = response.html.xpath("//meta[@name='keywords']/@content", first=True)

# 추출한 메타 데이터를 출력합니다.
print("Title:", title)
print("Description:", description)
print("Keywords:", keywords)

결과 예시

위의 코드를 실행하면 다음과 같은 결과를 얻을 수 있습니다.

Title: Example Website
Description: This is an example website.
Keywords: example, website, meta data

이 예시 코드를 사용하여 웹 페이지의 메타 데이터를 추출할 수 있습니다.

결론

Requests-HTML를 사용하면 Python으로 웹 페이지의 메타 데이터를 간편하게 추출할 수 있습니다. 이를 활용하여 웹 크롤링, SEO 분석 등 다양한 작업에 활용할 수 있습니다. 추가로 Requests-HTML의 다른 기능과 활용 방법에 대해 알아보고 싶다면 공식 문서를 참고하세요.