[python] 파이썬 BeautifulSoup으로 웹 스크랩핑 예제

04 Dec 2023

python

웹 스크래핑은 웹 페이지에서 정보를 추출하는 프로세스입니다. 파이썬의 BeautifulSoup 라이브러리는 이러한 웹 스크래핑을 쉽게 할 수 있도록 도와줍니다. 이번 예제에서는 BeautifulSoup을 사용하여 간단한 웹 스크래핑을 수행하는 방법을 살펴보겠습니다.

BeautifulSoup 설치하기

먼저 BeautifulSoup를 설치해야 합니다. 다음 명령을 사용하여 설치합니다.

pip install beautifulsoup4

예제: 네이버 실시간 검색어 출력하기

이제 파이썬에서 BeautifulSoup를 사용하여 네이버의 실시간 검색어를 가져와서 출력해보겠습니다.

import requests
from bs4 import BeautifulSoup

# 네이버 실시간 검색어 URL
url = "https://www.naver.com/"

# HTTP GET 요청
response = requests.get(url)

# BeautifulSoup 객체 생성
soup = BeautifulSoup(response.text, 'html.parser')

# 실시간 검색어 가져오기
search_keywords = soup.select('.PM_CL_realtimeKeyword_rolling span[class*=ah_k]')

# 검색어 출력
for keyword in search_keywords:
    print(keyword.text)

위 예제 코드는 먼저 requests 라이브러리를 사용하여 네이버의 실시간 검색어 페이지에 HTTP GET 요청을 보냅니다. 그런 다음, BeautifulSoup를 사용하여 HTML 페이지를 파싱하고, CSS 선택자를 사용하여 실시간 검색어를 가져옵니다. 마지막으로, 각 검색어를 출력합니다.

실행 결과

위 예제 코드를 실행하면 실시간 검색어가 출력됩니다.

비트코인
미야와키 사나
차은우
...

결론

이번 예제에서는 파이썬 BeautifulSoup 라이브러리를 사용하여 간단한 웹 스크래핑을 수행하는 방법을 살펴보았습니다. BeautifulSoup은 웹 스크래핑에 매우 유용한 도구이며, 다양한 웹 사이트에서 정보를 추출하는 데 활용할 수 있습니다. 웹 스크래핑의 사용에는 윤리적인 측면을 고려해야 하며, 대상 웹 사이트의 이용 약관을 확인하는 것이 중요합니다.