[python] Requests-HTML를 이용하여 웹 페이지의 문자 인코딩 변경하기
인터넷에서 웹 페이지의 내용을 가져오기 위해서는 문자 인코딩을 올바르게 처리해야 합니다. Python의 Requests-HTML 라이브러리를 이용하면 간편하게 웹 페이지의 문자 인코딩을 변경할 수 있습니다.
1. Requests-HTML 소개
Requests-HTML는 Python의 라이브러리로, 간단한 API를 통해 웹 페이지의 내용을 가져올 수 있습니다. HTML을 파싱하여 데이터를 추출하는 기능도 제공합니다.
2. 문자 인코딩 변경 방법
인코딩 변경을 위해서는 사용하려는 문자 인코딩 형식을 명시해야 합니다. 일반적으로 웹 페이지는 UTF-8 인코딩을 사용하므로, UTF-8으로 인코딩을 변경하는 예제 코드를 작성해 보겠습니다.
먼저 Requests-HTML를 설치합니다.
pip install requests-html
다음은 예제 코드입니다.
from requests_html import HTMLSession
# 세션 생성
session = HTMLSession()
# 웹 페이지 요청
url = 'https://example.com'
response = session.get(url)
# 문자 인코딩 변경
response.html.encoding = 'utf-8'
# 변경된 내용 출력
print(response.html.html)
위 코드에서는 HTMLSession
을 사용하여 세션을 생성하고, 해당 세션을 통해 웹 페이지를 가져옵니다. 그 후, response.html.encoding
을 변경하여 웹 페이지의 문자 인코딩을 UTF-8로 설정합니다. 변경된 내용은 response.html.html
에서 확인할 수 있습니다.
3. 참고 문서
Requests-HTML 라이브러리를 사용하여 웹 페이지의 문자 인코딩을 변경하는 방법에 대해 알아보았습니다. 이를 활용하여 웹 스크래핑이나 데이터 추출 등에 유용하게 활용할 수 있습니다.