[python] Requests-HTML를 이용하여 웹 페이지의 쿠키 정보 가져오기
웹 스크래핑을 하는 과정에서 때로는 웹 페이지의 쿠키 정보를 가져와야 할 때가 있습니다. 이를 위해 Python의 Requests-HTML 모듈을 사용하여 쿠키 정보를 가져오는 방법을 알아보겠습니다.
Requests-HTML이란?
Requests-HTML은 Python의 HTTP 라이브러리인 Requests를 기반으로 만들어진 HTML 웹 스크래핑 라이브러리 입니다. Requests-HTML을 사용하면 쉽게 웹 페이지의 내용을 가져오고 파싱할 수 있습니다.
쿠키 정보 가져오기
먼저, Requests-HTML 모듈을 설치해야 합니다. pip install requests-html
명령어를 통해 설치할 수 있습니다.
from requests_html import HTMLSession
# 세션 생성
session = HTMLSession()
# 웹 페이지 접속
response = session.get('https://example.com')
# 쿠키 정보 가져오기
cookies = response.cookies
# 쿠키 정보 출력
for cookie in cookies:
print(cookie)
위 예제 코드는 Requests-HTML을 사용하여 ‘https://example.com’에 접속한 뒤, 해당 웹 페이지의 쿠키 정보를 가져와 출력하는 예제입니다.
마지막 부분에서 response.cookies
를 통해 쿠키 정보를 가져옵니다. 이 정보는 requests.cookies.RequestsCookieJar
객체 형태로 반환됩니다. 이를 활용하여 쿠키 정보를 원하는 대로 가공하거나 사용할 수 있습니다.
결론
Requests-HTML을 사용하여 웹 페이지의 쿠키 정보를 가져오는 방법을 알아보았습니다. 이를 통해 웹 스크래핑 작업을 보다 효과적으로 수행할 수 있습니다. 더 자세한 내용은 Requests-HTML 공식 문서를 참고하시기 바랍니다.