[python] Requests-HTML로 웹 페이지에 로그인한 후 데이터 가져오기

01 Dec 2023

python

이번에는 Requests-HTML 라이브러리를 사용하여 웹 페이지에 로그인한 후에 데이터를 가져오는 방법에 대해 알아보겠습니다.

Requests-HTML 라이브러리 설치하기

먼저, Requests-HTML 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install requests-html

웹 페이지에 로그인하기

Requests-HTML은 Requests 라이브러리를 기반으로 하여 HTML을 파싱할 수 있는 기능을 제공합니다. 따라서, 우선 로그인을 해야 하는 웹 페이지에 로그인하는 코드를 작성해야 합니다.

from requests_html import HTMLSession

session = HTMLSession()

# 로그인 요청을 위한 데이터
payload = {
    'username': 'your_username',
    'password': 'your_password'
}

# 로그인한 세션 생성
login_url = 'http://example.com/login'
session.post(login_url, data=payload)

위의 코드에서 'your_username'과 'your_password'는 실제로 사용하는 로그인 정보로 대체되어야 합니다. 로그인 요청을 위한 데이터를 payload 변수에 딕셔너리 형태로 정의하고, session.post(login_url, data=payload)를 통해 로그인 요청을 보냅니다.

데이터 가져오기

로그인에 성공한 후에는 웹 페이지에서 필요한 데이터를 가져올 수 있습니다. 아래의 코드를 참고하여 데이터를 가져오는 방법을 확인해보세요.

# 데이터를 가져올 웹 페이지의 URL
data_url = 'http://example.com/data'

# 데이터 가져오기
response = session.get(data_url)

# 가져온 데이터 출력
print(response.text)

위의 코드에서 data_url은 데이터를 가져올 웹 페이지의 URL로 대체되어야 합니다. session.get(data_url)를 통해 해당 URL에 GET 요청을 보내고, 가져온 데이터는 response.text로 확인할 수 있습니다.

마무리

이제 Requests-HTML 라이브러리를 사용하여 웹 페이지에 로그인한 후 데이터를 가져오는 방법에 대해 알아보았습니다. 이를 통해 웹 크롤링이나 자동화 등의 작업에서 로그인이 필요한 경우에 유용하게 활용할 수 있습니다.

참고 자료: