[python] Requests-HTML로 웹 페이지의 리디렉션 처리하기

01 Dec 2023

python

일반적으로 웹 서버는 페이지의 주소를 변경하거나, 인증을 요구하기 위해 클라이언트를 다른 페이지로 리디렉션할 수 있습니다. 이러한 리디렉션은 클라이언트가 올바른 페이지로 이동하도록 도와줍니다. 만약 웹 크롤링이나 웹 스크래핑을 할 때, 리디렉션 처리는 중요한 요소가 될 수 있습니다.

Python에서는 requests 라이브러리를 사용하여 HTTP 요청을 처리할 수 있습니다. 그리고 requests-html 패키지는 웹 페이지를 렌더링하고 스크래핑하는 기능을 제공합니다. 이 라이브러리를 사용하여 웹 페이지의 리디렉션을 처리하는 방법을 살펴보겠습니다.

패키지 설치

먼저 requests-html 패키지를 설치해야 합니다. 다음과 같이 명령어를 실행하여 패키지를 설치할 수 있습니다.

pip install requests-html

코드 예제

다음은 requests-html을 사용하여 웹 페이지의 리디렉션을 처리하는 간단한 예제입니다.

from requests_html import HTMLSession

# HTMLSession 객체 생성
session = HTMLSession()

# GET 요청을 보내고 리디렉션을 자동으로 처리
response = session.get('https://example.com')

# 최종적으로 리디렉션된 URL 출력
print(response.url)

위 예제에서, HTMLSession 객체를 생성하여 HTTP 요청을 보낼 수 있습니다. get() 메서드를 사용하여 원하는 페이지의 URL을 전달하고, response 객체를 받아옵니다. response.url은 최종적으로 리디렉션된 URL을 제공합니다.

추가 설정

requests-html 라이브러리를 사용하면 다양한 설정을 추가로 지정할 수 있습니다. 예를 들어, 리디렉션을 자동으로 처리하지 않고 수동으로 처리하고 싶다면, allow_redirects=False 옵션을 get() 메서드에 전달할 수 있습니다. 또한, 세션 객체에 다른 세션 헤더를 지정하는 것도 가능합니다.

# 다른 세션 헤더 지정
session.headers.update({'User-Agent': 'Mozilla/5.0'})

# 리디렉션을 수동으로 처리
response = session.get('https://example.com', allow_redirects=False)

결론

requests-html을 사용하여 웹 페이지의 리디렉션을 처리하는 것은 매우 간단합니다. 위 예제를 참고하여 필요한 설정을 추가하고, 웹 크롤링이나 스크래핑 작업에 적합한 리디렉션 처리를 구현해보세요.

참고 자료

requests-html 문서