[python] 파이썬 웹 크롤링 예제: 네이버 뉴스 크롤링하기

15 Dec 2023

python

웹 크롤링은 인터넷에서 정보를 수집하여 가공하는 기술로, 파이썬을 사용하여 웹 사이트에서 데이터를 수집하는 예제를 살펴보겠습니다.

네이버 뉴스 크롤링

네이버 뉴스에서 특정 키워드에 관련된 기사의 제목과 링크를 크롤링하는 예제를 살펴보겠습니다.

필요한 라이브러리 설치

가장 먼저, requests와 BeautifulSoup 라이브러리를 설치해야 합니다.

pip install requests
pip install beautifulsoup4

파이썬 코드 작성

다음은 파이썬 코드 예제입니다. 이 예제는 requests를 사용하여 네이버 뉴스 페이지를 가져온 후, BeautifulSoup를 사용하여 HTML에서 원하는 정보를 추출합니다.

import requests
from bs4 import BeautifulSoup

keyword = '파이썬'  # 크롤링할 키워드
url = f'https://search.naver.com/search.naver?where=news&query={keyword}'

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

news_list = soup.select('.news_area')

for news in news_list:
    title = news.select_one('a.news_tit')['title']
    link = news.select_one('a.news_tit')['href']
    print(title, link)

위의 코드는 네이버 뉴스에서 ‘파이썬’이라는 키워드로 검색한 결과에서 기사의 제목과 링크를 가져오는 예제입니다.

이렇게 하여, 파이썬을 사용하여 간단하게 네이버 뉴스를 크롤링하는 방법을 알아보았습니다.

더 많은 내용을 공부하고 싶다면, Python Requests 라이브러리 공식 문서와 Beautiful Soup 공식 문서를 참고해보세요.