[python] Requests-HTML를 활용하여 웹 페이지의 테이블 데이터 가져오기

01 Dec 2023

python

Requests-HTML는 Python의 requests 라이브러리를 기반으로 만들어진 HTML 웹 페이지 스크래핑 라이브러리입니다. 이를 사용하여 웹 페이지에서 테이블 데이터를 가져올 수 있습니다.

설치하기

먼저, Requests-HTML를 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다.

pip install requests-html

사용하기

Requests-HTML를 사용하여 웹 페이지의 테이블 데이터를 가져오는 방법은 다음과 같습니다.

from requests_html import HTMLSession

# HTML 세션 생성
session = HTMLSession()

# 웹 페이지 요청
r = session.get('http://example.com')

# 테이블 태그 선택
table = r.html.find('table')[0]

# 테이블 데이터 추출
data = []
for row in table.find('tr'):
    row_data = []
    for cell in row.find('td'):
        row_data.append(cell.text)
    data.append(row_data)

# 결과 출력
for row in data:
    print(row)

위 코드에서는 requests-html의 HTMLSession 클래스를 사용하여 HTML 세션을 만들고 웹 페이지에 요청합니다. 그 후, find() 메서드를 사용하여 테이블 태그를 선택합니다. 선택한 테이블에서는 find() 메서드를 다시 사용하여 각 셀의 텍스트를 추출하여 데이터를 구성합니다. 마지막으로, 데이터를 출력합니다.

요약

Requests-HTML를 사용하면 Python으로 웹 페이지의 테이블 데이터를 손쉽게 가져올 수 있습니다. HTML 세션을 만들고 웹 페이지에 요청한 다음, 테이블 태그를 선택하여 데이터를 추출할 수 있습니다. 이를 활용하여 웹 스크래핑 작업을 수행할 수 있습니다.

참고 자료

Requests-HTML 공식 문서: https://requests-html.kennethreitz.org/
requests-html GitHub 저장소: https://github.com/psf/requests-html