[python] Requests-HTML를 활용하여 웹 페이지의 테이블 데이터 가져오기
Requests-HTML는 Python의 requests 라이브러리를 기반으로 만들어진 HTML 웹 페이지 스크래핑 라이브러리입니다. 이를 사용하여 웹 페이지에서 테이블 데이터를 가져올 수 있습니다.
설치하기
먼저, Requests-HTML를 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다.
pip install requests-html
사용하기
Requests-HTML를 사용하여 웹 페이지의 테이블 데이터를 가져오는 방법은 다음과 같습니다.
from requests_html import HTMLSession
# HTML 세션 생성
session = HTMLSession()
# 웹 페이지 요청
r = session.get('http://example.com')
# 테이블 태그 선택
table = r.html.find('table')[0]
# 테이블 데이터 추출
data = []
for row in table.find('tr'):
row_data = []
for cell in row.find('td'):
row_data.append(cell.text)
data.append(row_data)
# 결과 출력
for row in data:
print(row)
위 코드에서는 requests-html의 HTMLSession
클래스를 사용하여 HTML 세션을 만들고 웹 페이지에 요청합니다. 그 후, find()
메서드를 사용하여 테이블 태그를 선택합니다. 선택한 테이블에서는 find()
메서드를 다시 사용하여 각 셀의 텍스트를 추출하여 데이터를 구성합니다. 마지막으로, 데이터를 출력합니다.
요약
Requests-HTML를 사용하면 Python으로 웹 페이지의 테이블 데이터를 손쉽게 가져올 수 있습니다. HTML 세션을 만들고 웹 페이지에 요청한 다음, 테이블 태그를 선택하여 데이터를 추출할 수 있습니다. 이를 활용하여 웹 스크래핑 작업을 수행할 수 있습니다.
참고 자료
- Requests-HTML 공식 문서: https://requests-html.kennethreitz.org/
- requests-html GitHub 저장소: https://github.com/psf/requests-html