[python] 파이썬 웹 크롤링 예제: 네이버 뉴스 크롤링하기
웹 크롤링은 인터넷에서 정보를 수집하여 가공하는 기술로, 파이썬을 사용하여 웹 사이트에서 데이터를 수집하는 예제를 살펴보겠습니다.
네이버 뉴스 크롤링
네이버 뉴스에서 특정 키워드에 관련된 기사의 제목과 링크를 크롤링하는 예제를 살펴보겠습니다.
필요한 라이브러리 설치
가장 먼저, requests
와 BeautifulSoup
라이브러리를 설치해야 합니다.
pip install requests
pip install beautifulsoup4
파이썬 코드 작성
다음은 파이썬 코드 예제입니다. 이 예제는 requests
를 사용하여 네이버 뉴스 페이지를 가져온 후, BeautifulSoup
를 사용하여 HTML에서 원하는 정보를 추출합니다.
import requests
from bs4 import BeautifulSoup
keyword = '파이썬' # 크롤링할 키워드
url = f'https://search.naver.com/search.naver?where=news&query={keyword}'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
news_list = soup.select('.news_area')
for news in news_list:
title = news.select_one('a.news_tit')['title']
link = news.select_one('a.news_tit')['href']
print(title, link)
위의 코드는 네이버 뉴스에서 ‘파이썬’이라는 키워드로 검색한 결과에서 기사의 제목과 링크를 가져오는 예제입니다.
이렇게 하여, 파이썬을 사용하여 간단하게 네이버 뉴스를 크롤링하는 방법을 알아보았습니다.
더 많은 내용을 공부하고 싶다면, Python Requests 라이브러리 공식 문서와 Beautiful Soup 공식 문서를 참고해보세요.