[python] Requests-HTML로 웹 페이지의 엑셀 파일 다운로드하기

01 Dec 2023

python

이 블로그 포스트에서는 Python의 Requests-HTML 라이브러리를 사용하여 웹 페이지에서 엑셀 파일을 다운로드하는 방법을 알아보겠습니다. Requests-HTML은 간편하게 웹 페이지를 스크래핑하거나 데이터를 다운로드할 수 있는 라이브러리입니다.

필요한 라이브러리 설치하기

먼저, Requests-HTML을 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다.

pip install requests-html

코드 작성하기

다음은 Requests-HTML을 사용하여 웹 페이지의 엑셀 파일을 다운로드하는 간단한 예제 코드입니다. 아래 코드를 실행하기 전에 url 변수에 다운로드할 엑셀 파일이 있는 웹 페이지의 주소를 할당해야 합니다.

from requests_html import HTMLSession

# 다운로드할 엑셀 파일이 있는 웹 페이지의 주소
url = "https://example.com"

# Requests-HTML 세션 생성
session = HTMLSession()

# 웹 페이지 요청
r = session.get(url)

# 웹 페이지에서 모든 링크 추출
links = r.html.links

# 링크 중에서 엑셀 파일(.xls, .xlsx)을 찾아 다운로드
for link in links:
    if link.endswith(".xls") or link.endswith(".xlsx"):
        # 엑셀 파일 다운로드
        response = session.get(url + link)
        with open(link, "wb") as f:
            f.write(response.content)

위 코드는 주어진 웹 페이지에서 모든 링크를 추출하고, 그 중에서 엑셀 파일(.xls, .xlsx 확장자)을 찾아 다운로드합니다. 엑셀 파일은 현재 디렉토리에 다운로드됩니다.

실행하기

위의 예제 코드를 실행하려면 Python 인터프리터를 사용하여 코드를 실행하면 됩니다. 다음 명령을 사용하여 코드를 실행합니다.

python script.py

결론

이 블로그 포스트에서는 Python의 Requests-HTML 라이브러리를 사용하여 웹 페이지의 엑셀 파일을 다운로드하는 방법을 소개했습니다. Requests-HTML을 사용하면 간편하게 웹 스크래핑을 할 수 있으며, 원하는 데이터를 다운로드할 수 있습니다. 자세한 내용은 Requests-HTML 공식 문서를 참조하세요.

참조: