[python] 페이지 병합하기
많은 웹 페이지를 스크랩하고 있는 경우, 각각의 페이지에서 가져온 데이터를 병합하는 작업을 해야 할 때가 있습니다. 이때, Python을 사용하여 페이지를 병합하는 방법을 알아보겠습니다.
1. 라이브러리 설치
먼저, requests
와 BeautifulSoup
라는 라이브러리를 설치해야 합니다. 이 라이브러리들은 웹 페이지 스크랩을 쉽게 할 수 있도록 도와줍니다.
pip install requests
pip install beautifulsoup4
2. 페이지 스크랩하기
여러 개의 웹 페이지에서 데이터를 스크랩한 후, 이를 병합하기 위해 각각의 페이지에서 가져온 데이터를 리스트에 저장합니다.
import requests
from bs4 import BeautifulSoup
page_urls = ['http://example.com/page1', 'http://example.com/page2', 'http://example.com/page3']
data_list = []
for url in page_urls:
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
data = soup.find('div', class_='data').text
data_list.append(data)
위 코드에서는 page_urls
리스트에 병합하고자 하는 페이지의 URL을 저장하고, 각각의 페이지에서 데이터를 스크랩한 후 data_list
에 저장합니다.
3. 페이지 병합하기
이제, data_list
에 저장된 데이터를 하나의 문자열로 병합하는 작업을 진행합니다.
merged_data = '\n'.join(data_list)
위 코드에서는 data_list
에 저장된 데이터를 \n
으로 구분하여 하나의 문자열로 병합합니다.
4. 결과 확인하기
마지막으로, 병합된 데이터를 출력하여 결과를 확인합니다.
print(merged_data)
위 코드를 실행하면, data_list
에 저장된 모든 데이터가 하나의 문자열로 병합되어 출력됩니다.