[python] Requests-HTML를 사용하여 웹 페이지의 상태 코드 확인하기

01 Dec 2023

python

웹 스크래핑 작업 중에는 종종 웹 페이지의 상태 코드를 확인해야 할 때가 있습니다. 이를 위해 Python에서는 Requests-HTML 라이브러리를 사용할 수 있습니다. 이번 포스트에서는 Requests-HTML를 사용하여 웹 페이지의 상태 코드를 확인하는 방법에 대해 알아보겠습니다.

Requests-HTML 설치하기

Requests-HTML를 사용하기 위해서는 먼저 해당 라이브러리를 설치해야 합니다. 아래의 명령을 사용하여 설치할 수 있습니다.

pip install requests-html

웹 페이지의 상태 코드 확인하기

Requests-HTML를 사용하여 웹 페이지의 상태 코드를 확인하려면 다음과 같은 코드를 작성해야 합니다.

from requests_html import HTMLSession

session = HTMLSession()

response = session.get('https://www.example.com')
status_code = response.status_code

print('상태 코드:', status_code)

위의 코드에서는 Requests-HTML의 HTMLSession 클래스를 사용하여 웹 페이지에 접속한 후, get 메서드를 사용하여 페이지의 내용을 가져옵니다. 이때 status_code 속성을 사용하면 상태 코드를 확인할 수 있습니다.

예외 처리

웹 페이지의 상태 코드를 확인할 때에는 예외 처리를 함께 고려해야 합니다. 예를 들어, 웹 페이지에 접속하지 못하거나 요청이 실패하는 경우에는 예외가 발생하기 때문입니다. 이를 처리하기 위해서는 try-except 문을 사용하면 됩니다.

try:
    response = session.get('https://www.example.com')
    status_code = response.status_code
    print('상태 코드:', status_code)
except Exception as e:
    print('예외가 발생했습니다:', str(e))

위의 코드에서는 try 블록 내에서 웹 페이지에 접속하고 상태 코드를 확인하며, 예외가 발생할 경우 except 블록에서 예외 메세지를 출력합니다.

결론

Requests-HTML를 사용하면 간편하게 웹 페이지의 상태 코드를 확인할 수 있습니다. 이를 활용하여 웹 스크래핑 작업이나 웹 애플리케이션 개발 등 다양한 목적으로 활용할 수 있습니다.

참고 자료

Requests-HTML 공식 문서: https://requests-html.kennethreitz.org/
Requests-HTML GitHub 저장소: https://github.com/psf/requests-html
Python Requests 공식 문서: https://requests.readthedocs.io/