[python] 페이지 병합하기

많은 웹 페이지를 스크랩하고 있는 경우, 각각의 페이지에서 가져온 데이터를 병합하는 작업을 해야 할 때가 있습니다. 이때, Python을 사용하여 페이지를 병합하는 방법을 알아보겠습니다.

1. 라이브러리 설치

먼저, requestsBeautifulSoup라는 라이브러리를 설치해야 합니다. 이 라이브러리들은 웹 페이지 스크랩을 쉽게 할 수 있도록 도와줍니다.

pip install requests
pip install beautifulsoup4

2. 페이지 스크랩하기

여러 개의 웹 페이지에서 데이터를 스크랩한 후, 이를 병합하기 위해 각각의 페이지에서 가져온 데이터를 리스트에 저장합니다.

import requests
from bs4 import BeautifulSoup

page_urls = ['http://example.com/page1', 'http://example.com/page2', 'http://example.com/page3']
data_list = []

for url in page_urls:
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    data = soup.find('div', class_='data').text
    data_list.append(data)

위 코드에서는 page_urls 리스트에 병합하고자 하는 페이지의 URL을 저장하고, 각각의 페이지에서 데이터를 스크랩한 후 data_list에 저장합니다.

3. 페이지 병합하기

이제, data_list에 저장된 데이터를 하나의 문자열로 병합하는 작업을 진행합니다.

merged_data = '\n'.join(data_list)

위 코드에서는 data_list에 저장된 데이터를 \n으로 구분하여 하나의 문자열로 병합합니다.

4. 결과 확인하기

마지막으로, 병합된 데이터를 출력하여 결과를 확인합니다.

print(merged_data)

위 코드를 실행하면, data_list에 저장된 모든 데이터가 하나의 문자열로 병합되어 출력됩니다.

참고 자료