[python] 웹 페이지 스크롤링

21 Nov 2023

python

이번에는 Python을 사용하여 웹 페이지 스크롤링을 하는 방법에 대해 알아보겠습니다.

필요한 라이브러리 설치

먼저, 웹 페이지 스크롤링에 필요한 라이브러리를 설치해야 합니다. Python에서는 BeautifulSoup과 requests 라이브러리를 사용하여 웹 페이지를 가져오고 파싱할 수 있습니다. 아래의 명령어를 사용하여 라이브러리를 설치해주세요.

pip install beautifulsoup4
pip install requests

웹 페이지 스크롤링 코드 작성

이제 웹 페이지 스크롤링을 위한 코드를 작성해보겠습니다. 아래의 예제 코드는 네이버 뉴스 홈페이지에서 뉴스 제목을 모두 가져오는 코드입니다.

import requests
from bs4 import BeautifulSoup

url = 'https://news.naver.com/'

response = requests.get(url)  # 웹 페이지 가져오기
html = response.text  # 가져온 페이지의 HTML 코드를 문자열로 변환

soup = BeautifulSoup(html, 'html.parser')  # BeautifulSoup 객체 생성

news_titles = soup.find_all('a', {'class': 'article'})

for title in news_titles:  # 뉴스 제목 출력
    print(title.text)

위의 코드를 실행하면 네이버 뉴스 홈페이지에서 최신 뉴스 제목을 출력할 수 있습니다.

스크롤링 주의사항

웹 페이지 스크롤링을 할 때에는 반드시 해당 사이트의 로봇 배제 표준을 확인하고 준수해야 합니다. 일부 사이트는 스크롤링을 금지하기 위해 로봇 배제 표준을 설정할 수 있습니다. 스크롤링을 할 때에는 항상 사이트의 이용 약관을 확인하고 스크롤링이 허용되는지 여부를 확인해야 합니다.

이제 Python을 사용하여 웹 페이지 스크롤링을 할 준비가 되었습니다. 관심 있는 웹 페이지에서 원하는 정보를 가져와 활용해보세요!