[python] Requests-HTML를 활용하여 웹 페이지의 예외 처리하기

01 Dec 2023

python

개요

웹 스크래핑을 하다보면, 가끔씩 웹 페이지에서 예외가 발생할 수 있습니다. 이러한 예외를 처리하는 것은 중요한 부분이며, Requests-HTML 라이브러리를 사용하면 간단하고 효과적으로 예외 처리를 할 수 있습니다. 이번 블로그 포스트에서는 Requests-HTML 라이브러리를 활용하여 웹 페이지의 예외 처리하는 방법을 알아보겠습니다.

Requests-HTML 소개

Requests-HTML은 Python에서 웹 페이지를 가져오고 파싱하는 데 사용되는 라이브러리입니다. 기능적으로 Requests와 BeautifulSoup을 하나의 패키지로 제공하여 편리한 사용을 할 수 있습니다.

예외 처리 방법

다음은 Requests-HTML을 사용하여 웹 페이지의 예외를 처리하는 간단한 코드입니다.

from requests_html import HTMLSession

session = HTMLSession()
try:
    response = session.get('https://www.example.com')
    response.raise_for_status()
except requests.HTTPError as e:
    print('HTTPError occurred:', str(e))
except requests.exceptions.RequestException as e:
    print('An error occurred:', str(e))

위 코드에서는 HTMLSession 객체를 생성하고, get() 메서드를 사용하여 원하는 웹 페이지를 가져옵니다. 그리고 response의 상태를 체크하여 문제가 발생할 경우 예외를 처리합니다. HTTPError는 HTTP 상태 코드가 400 이상인 경우 발생하며, RequestException은 네트워크에 관련된 예외를 처리합니다. 이를 활용하여 예외를 적절하게 처리할 수 있습니다.

정리

Requests-HTML을 사용하여 웹 페이지의 예외를 처리하는 방법을 알아보았습니다. 이를 통해 웹 스크래핑 과정에서 예외를 간편하게 처리할 수 있습니다. 예외 처리는 웹 스크래핑 프로젝트의 안정성을 높이는데 중요한 역할을 합니다.

더 자세한 내용은 Requests-HTML 공식 문서를 참조하시기 바랍니다.