[python] 웹 페이지 자동 스크랩핑

목차

개요

웹 스크랩핑은 인터넷 상의 웹 페이지에서 정보를 추출하고, 이를 자동화하여 데이터를 수집하는 기술입니다. Python은 웹 페이지 스크랩핑에 매우 효과적인 언어로 알려져 있으며, 다양한 라이브러리를 제공하여 웹 페이지에서 데이터를 추출하기 위한 다양한 방법들을 제공합니다.

이번 블로그 포스트에서는 Python을 사용하여 웹 페이지를 자동으로 스크랩핑하는 방법을 알아보겠습니다.

필요한 라이브러리 설치

웹 스크랩핑을 위해 필요한 라이브러리를 먼저 설치해야 합니다. Python의 가장 유명하고 많이 사용되는 웹 스크랩핑 라이브러리는 BeautifulSoupRequests입니다.

아래의 명령어를 사용하여 필요한 라이브러리를 설치합니다.

pip install beautifulsoup4
pip install requests

웹 페이지 스크랩핑 코드 작성

이제 웹 페이지 스크랩핑을 위한 코드를 작성해보겠습니다. 아래의 예제 코드는 Requests 라이브러리를 사용하여 웹 페이지의 HTML 코드를 가져오고, BeautifulSoup 라이브러리를 사용하여 필요한 데이터를 추출하는 코드입니다.

import requests
from bs4 import BeautifulSoup

# 웹 페이지의 URL 설정
url = "https://example.com"

# 웹 페이지 요청
response = requests.get(url)

# 웹 페이지의 HTML 코드 파싱
soup = BeautifulSoup(response.content, "html.parser")

# 원하는 데이터 추출
title = soup.find("h1").text
paragraphs = soup.find_all("p")

# 추출한 데이터 출력
print("제목:", title)
print("본문:")
for p in paragraphs:
    print(p.text)

결과 확인

위의 코드를 실행하면 해당 웹 페이지의 제목과 본문 내용이 출력되는 것을 확인할 수 있습니다. 이를 조금 더 발전시켜서 데이터를 파일로 저장하거나, 원하는 형식으로 가공하여 사용할 수도 있습니다.

참고 자료