[python] Requests-HTML를 사용하여 웹 페이지의 페이징 처리하기

01 Dec 2023

python

파이썬은 다양한 라이브러리를 통해 웹 스크래핑을 할 수 있습니다. 그 중에서도 Requests-HTML은 사용하기 쉬운 API를 제공하여 웹 페이지의 페이징 처리를 간편하게 할 수 있습니다.

Requests-HTML 설치하기

먼저, Requests-HTML을 설치해야 합니다. pip를 사용하여 다음 명령을 실행하여 Requests-HTML을 설치할 수 있습니다.

pip install requests-html

웹 페이지 스크래핑하기

Requests-HTML을 사용하여 웹 페이지의 페이징 처리를 하려면 먼저 해당 웹 페이지의 URL을 알아야 합니다. 예를 들어, 다음과 같은 URL을 가진 웹 페이지가 있다고 가정해보겠습니다.

url = 'https://example.com/products?page='

이제 Requests-HTML을 사용하여 해당 웹 페이지의 HTML을 가져와야 합니다. 다음 예제 코드를 참고하세요.

from requests_html import HTMLSession

session = HTMLSession()
pages_to_scrape = 5

for page in range(1, pages_to_scrape+1):
    r = session.get(url + str(page))
    # 페이지를 스크래핑하는 코드 작성

위 코드에서는 HTMLSession 객체를 생성하고, pages_to_scrape 변수에 스크래핑할 페이지 수를 지정합니다. 반복문을 사용하여 각 페이지의 HTML을 가져옵니다.

페이징 처리하기

페이징 처리를 위해서는 각 페이지의 HTML을 분석하여 필요한 데이터를 추출하는 작업이 필요합니다. BeautifulSoup을 사용하여 원하는 정보를 추출할 수 있습니다. 아래 예제 코드를 참고하세요.

from bs4 import BeautifulSoup

...

for page in range(1, pages_to_scrape+1):
    ...
    soup = BeautifulSoup(r.content, 'html.parser')
    # 추출할 정보를 선택하기 위해 soup 객체를 사용하여 필요한 작업을 수행

페이징 처리를 하기 위해서는 각 페이지의 URL을 조합하고, 해당 URL에 대한 HTML을 가져와야 합니다. 위의 예제 코드에서는 각 페이지의 HTML을 r 변수에 저장하고, 이를 BeautifulSoup 객체인 soup에 전달하여 원하는 데이터를 추출합니다.

결론

Requests-HTML을 사용하면 파이썬을 통해 웹 페이지의 페이징 처리를 쉽게 할 수 있습니다. Requests-HTML을 설치하고, 각 페이지의 HTML을 가져와서 BeautifulSoup을 사용하여 필요한 데이터를 추출할 수 있습니다. 이를 통해 웹 스크래핑 작업을 더 효율적이고 편리하게 할 수 있습니다.

Requests-HTML 설치하기

웹 페이지 스크래핑하기

페이징 처리하기

결론

참고 자료