[파이썬] requests-html 쿠키 사용하기

requests-html

웹 스크래핑을 수행하기 위해 많은 사람들이 좋아하는 Python 라이브러리인 requests-html은 편리하고 강력한 기능을 제공합니다. 이 라이브러리는 requests 라이브러리를 기반으로 하며, HTML 문서를 파싱하고 스크래핑하는 데에 사용됩니다.

일부 웹사이트는 로그인하지 않으면 정보에 접근할 수 없습니다. 이런 경우에는 인증된 사용자로서 요청을 보내야하며, 이를 위해 쿠키를 사용할 수 있습니다. 이번 블로그 포스트에서는 requests-html을 사용하여 웹사이트에 로그인하고 인증된 요청을 보내는 방법에 대해 알아보겠습니다.

설치

먼저 requests-html 모듈을 설치해야 합니다. 아래의 명령어로 설치할 수 있습니다:

pip install requests-html

쿠키 사용하기

requests-html을 사용하여 사이트에 로그인하고 인증된 요청을 보내려면 다음 단계를 따릅니다.

  1. 세션 생성
  2. 로그인 요청
  3. 세션에 쿠키 추가
  4. 요청 보내기
from requests_html import HTMLSession

# 세션 생성
session = HTMLSession()

# 로그인 요청
login_payload = {
    'username': 'my_username',
    'password': 'my_password'
}
login_url = 'https://www.example.com/login'
response = session.post(login_url, data=login_payload)

# 쿠키 추가
session.cookies.update(response.cookies)

# 인증된 요청 보내기
target_url = 'https://www.example.com/protected_page'
response = session.get(target_url)

# 결과 출력
print(response.text)

위의 예시에서 HTMLSession을 사용하여 세션을 생성하고, 로그인 시 필요한 사용자 정보를 담은 페이로드를 제출하여 로그인 요청을 합니다. 그런 다음 수신한 쿠키를 세션에 추가하고, 원하는 페이지로 인증된 요청을 보냅니다. 마지막으로 요청에 대한 응답을 확인할 수 있습니다.

요약

requests-html을 사용하면 쿠키를 활용하여 로그인이 필요한 웹사이트에 인증된 요청을 쉽게 보낼 수 있습니다. 이를 통해 웹 스크래핑 작업 등을 더욱 효율적으로 수행할 수 있습니다.

위의 예시를 참고하여 requests-html을 사용해 쿠키를 활용하는 방법을 익혀보세요. Happy scraping!