[python] 웹 페이지 자동 스크랩핑
목차
개요
웹 스크랩핑은 인터넷 상의 웹 페이지에서 정보를 추출하고, 이를 자동화하여 데이터를 수집하는 기술입니다. Python은 웹 페이지 스크랩핑에 매우 효과적인 언어로 알려져 있으며, 다양한 라이브러리를 제공하여 웹 페이지에서 데이터를 추출하기 위한 다양한 방법들을 제공합니다.
이번 블로그 포스트에서는 Python을 사용하여 웹 페이지를 자동으로 스크랩핑하는 방법을 알아보겠습니다.
필요한 라이브러리 설치
웹 스크랩핑을 위해 필요한 라이브러리를 먼저 설치해야 합니다. Python의 가장 유명하고 많이 사용되는 웹 스크랩핑 라이브러리는 BeautifulSoup
와 Requests
입니다.
아래의 명령어를 사용하여 필요한 라이브러리를 설치합니다.
pip install beautifulsoup4
pip install requests
웹 페이지 스크랩핑 코드 작성
이제 웹 페이지 스크랩핑을 위한 코드를 작성해보겠습니다. 아래의 예제 코드는 Requests
라이브러리를 사용하여 웹 페이지의 HTML 코드를 가져오고, BeautifulSoup
라이브러리를 사용하여 필요한 데이터를 추출하는 코드입니다.
import requests
from bs4 import BeautifulSoup
# 웹 페이지의 URL 설정
url = "https://example.com"
# 웹 페이지 요청
response = requests.get(url)
# 웹 페이지의 HTML 코드 파싱
soup = BeautifulSoup(response.content, "html.parser")
# 원하는 데이터 추출
title = soup.find("h1").text
paragraphs = soup.find_all("p")
# 추출한 데이터 출력
print("제목:", title)
print("본문:")
for p in paragraphs:
print(p.text)
결과 확인
위의 코드를 실행하면 해당 웹 페이지의 제목과 본문 내용이 출력되는 것을 확인할 수 있습니다. 이를 조금 더 발전시켜서 데이터를 파일로 저장하거나, 원하는 형식으로 가공하여 사용할 수도 있습니다.