[python] Requests-HTML를 활용하여 웹 페이지의 오류 처리하기

01 Dec 2023

python

웹 스크래핑을 수행하다보면 때때로 웹 페이지에 오류가 발생할 수 있습니다. 이러한 오류를 처리하기 위해 Requests-HTML라는 파이썬 라이브러리를 사용할 수 있습니다. Requests-HTML은 HTTP 요청을 보내고 응답을 받는 기능을 제공하는 라이브러리로, 웹 페이지 상의 내용을 가져오는데 유용합니다.

Requests-HTML 설치

Requests-HTML를 사용하기 위해 먼저 설치해야 합니다. 다음 명령어를 사용하여 Requests-HTML을 설치할 수 있습니다.

pip install requests-html

예제 코드

다음은 Requests-HTML를 사용하여 웹 페이지의 오류를 처리하는 예제 코드입니다.

from requests_html import HTMLSession

url = "https://www.example.com"

session = HTMLSession()
response = session.get(url)

# 웹 페이지의 상태 코드를 확인하여 오류 처리
if response.status_code == 200:
    # 웹 페이지가 성공적으로 로드되었을 경우 작업 수행
    # ...
else:
    # 웹 페이지 로드에 실패한 경우 오류 처리
    print("웹 페이지 로드에 실패했습니다.")

session.close()

위의 코드에서는 HTMLSession 객체를 사용하여 세션을 생성하고, get() 메서드를 사용하여 웹 페이지에 GET 요청을 보냅니다. 그리고 응답의 상태 코드를 확인하여 웹 페이지가 성공적으로 로드되었는지 여부를 판단합니다. 상태 코드가 200인 경우에는 웹 페이지가 성공적으로 로드된 것으로 간주하고 작업을 수행하고, 그렇지 않은 경우에는 오류 처리를 수행합니다.

결론

Requests-HTML를 사용하면 간편하게 웹 페이지의 오류를 처리할 수 있습니다. 웹 스크래핑 작업을 수행할 때 이러한 오류 처리를 효과적으로 수행하여 안정적인 웹 스크래핑을 구현할 수 있습니다. Requests-HTML의 다양한 기능을 활용하여 다양한 웹 스크래핑 작업을 수행해보세요.

참고 문서: Requests-HTML 공식 문서