[python] Requests-HTML를 사용하여 웹 페이지의 상태 코드 확인하기
웹 스크래핑 작업 중에는 종종 웹 페이지의 상태 코드를 확인해야 할 때가 있습니다. 이를 위해 Python에서는 Requests-HTML 라이브러리를 사용할 수 있습니다. 이번 포스트에서는 Requests-HTML를 사용하여 웹 페이지의 상태 코드를 확인하는 방법에 대해 알아보겠습니다.
Requests-HTML 설치하기
Requests-HTML를 사용하기 위해서는 먼저 해당 라이브러리를 설치해야 합니다. 아래의 명령을 사용하여 설치할 수 있습니다.
pip install requests-html
웹 페이지의 상태 코드 확인하기
Requests-HTML를 사용하여 웹 페이지의 상태 코드를 확인하려면 다음과 같은 코드를 작성해야 합니다.
from requests_html import HTMLSession
session = HTMLSession()
response = session.get('https://www.example.com')
status_code = response.status_code
print('상태 코드:', status_code)
위의 코드에서는 Requests-HTML의 HTMLSession
클래스를 사용하여 웹 페이지에 접속한 후, get
메서드를 사용하여 페이지의 내용을 가져옵니다. 이때 status_code
속성을 사용하면 상태 코드를 확인할 수 있습니다.
예외 처리
웹 페이지의 상태 코드를 확인할 때에는 예외 처리를 함께 고려해야 합니다. 예를 들어, 웹 페이지에 접속하지 못하거나 요청이 실패하는 경우에는 예외가 발생하기 때문입니다. 이를 처리하기 위해서는 try-except
문을 사용하면 됩니다.
try:
response = session.get('https://www.example.com')
status_code = response.status_code
print('상태 코드:', status_code)
except Exception as e:
print('예외가 발생했습니다:', str(e))
위의 코드에서는 try
블록 내에서 웹 페이지에 접속하고 상태 코드를 확인하며, 예외가 발생할 경우 except
블록에서 예외 메세지를 출력합니다.
결론
Requests-HTML를 사용하면 간편하게 웹 페이지의 상태 코드를 확인할 수 있습니다. 이를 활용하여 웹 스크래핑 작업이나 웹 애플리케이션 개발 등 다양한 목적으로 활용할 수 있습니다.
참고 자료
- Requests-HTML 공식 문서: https://requests-html.kennethreitz.org/
- Requests-HTML GitHub 저장소: https://github.com/psf/requests-html
- Python Requests 공식 문서: https://requests.readthedocs.io/