[python] Requests-HTML를 사용하여 웹 페이지의 동영상 타이틀 추출하기
이번 포스트에서는 Requests-HTML 라이브러리를 사용하여 웹 페이지의 동영상 타이틀을 추출하는 방법에 대해 알아보겠습니다.
개요
웹 크롤링을 위해 Requests-HTML 라이브러리는 많은 기능을 제공합니다. 이 라이브러리를 사용하면 HTML 문서에서 쉽게 데이터를 추출할 수 있습니다. 여기서는 Requests-HTML을 사용하여 웹 페이지의 동영상 타이틀을 추출하는 방법을 다룰 것입니다.
코드
먼저, Requests-HTML을 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.
pip install requests-html
이제 다음 코드를 사용하여 웹 페이지의 동영상 타이틀을 추출해보겠습니다.
from requests_html import HTMLSession
url = "https://example.com" # 추출하려는 웹 페이지의 URL
session = HTMLSession()
response = session.get(url)
# CSS 선택자를 사용하여 동영상 타이틀 추출
title = response.html.find(".video-title", first=True).text
print(title)
위 코드에서는 HTMLSession
을 사용하여 세션을 생성한 다음, get
메소드를 사용하여 웹 페이지의 HTML 문서를 가져옵니다. 그리고 find
메소드를 사용하여 동영상 타이틀이 있는 HTML 요소를 찾습니다. 이때 CSS 선택자를 사용하면 편리합니다. 마지막으로 text
속성을 사용하여 타이틀을 추출하고 출력합니다.
결론
Requests-HTML 라이브러리를 사용하면 웹 페이지의 동영상 타이틀을 간편하게 추출할 수 있습니다. 위에서 소개한 코드를 사용하여 타이틀을 추출해 보세요. 이 라이브러리는 많은 기능을 제공하므로 웹 크롤링 작업을 할 때 유용하게 활용할 수 있습니다.