[python] 파이썬 BeautifulSoup과 데이터 마이닝

04 Dec 2023

python

파이썬 Beautiful Soup은 웹 크롤링 및 스크래핑 작업에 사용되는 파이썬 라이브러리입니다. 이 라이브러리를 사용하면 HTML 및 XML 형식의 웹 페이지에서 데이터를 추출하는 작업을 쉽게 수행할 수 있습니다. 데이터 마이닝은 이러한 추출된 데이터를 분석하여 유용한 정보를 도출하는 과정을 의미합니다.

BeautifulSoup 설치하기

먼저, BeautifulSoup을 설치해야합니다. pip를 사용하여 다음 명령을 실행하여 설치할 수 있습니다.

pip install beautifulsoup4

BeautifulSoup 기본 사용법

BeautifulSoup을 사용하여 웹 페이지의 데이터를 추출하는 기본적인 방법을 살펴보겠습니다.

먼저, urllib 또는 requests를 사용하여 웹 페이지의 HTML을 가져옵니다.

import requests

url = "https://www.example.com"
response = requests.get(url)
html_content = response.text

BeautifulSoup 객체를 생성하고, HTML 파서를 지정합니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, "html.parser")

필요한 데이터를 추출합니다. 웹 페이지의 구조를 확인하고 원하는 요소의 선택자를 사용하여 데이터를 추출할 수 있습니다.

# 원하는 요소 선택하기
title = soup.select_one("h1").text

데이터 마이닝 예제

간단한 데이터 마이닝 예제를 통해 BeautifulSoup의 활용을 살펴보겠습니다.

# 네이버 실시간 검색어 순위 추출하기
url = "https://www.naver.com"
response = requests.get(url)
html_content = response.text
soup = BeautifulSoup(html_content, "html.parser")

# 실시간 검색어 추출하기
rankings = soup.select(".ah_k")

# 추출된 데이터 출력하기
for rank, keyword in enumerate(rankings, start=1):
    print(f"{rank}. {keyword.text}")

위 예제는 네이버의 실시간 검색어 순위를 추출하는 예제입니다. BeautifulSoup을 사용하여 HTML 페이지에서 실시간 검색어를 추출한 후, 순위와 검색어를 출력하는 코드입니다.

추출된 데이터를 활용하여 여러 가지 분석 및 시각화 작업을 수행할 수 있습니다.

결론

파이썬 BeautifulSoup을 통해 웹 페이지에서 데이터를 추출하고 데이터 마이닝 작업을 수행하는 방법을 살펴보았습니다. BeautifulSoup은 강력한 웹 크롤링 및 스크래핑 도구로, 다양한 웹 기반 데이터 분석에 유용하게 활용될 수 있습니다.

더 자세한 내용은 BeautifulSoup 공식 문서를 참조하시기 바랍니다.

BeautifulSoup 공식 문서: https://www.crummy.com/software/BeautifulSoup/
파이썬 공식 문서: https://www.python.org/