[python] 웹 페이지 스크롤링
이번에는 Python을 사용하여 웹 페이지 스크롤링을 하는 방법에 대해 알아보겠습니다.
필요한 라이브러리 설치
먼저, 웹 페이지 스크롤링에 필요한 라이브러리를 설치해야 합니다. Python에서는 BeautifulSoup
과 requests
라이브러리를 사용하여 웹 페이지를 가져오고 파싱할 수 있습니다. 아래의 명령어를 사용하여 라이브러리를 설치해주세요.
pip install beautifulsoup4
pip install requests
웹 페이지 스크롤링 코드 작성
이제 웹 페이지 스크롤링을 위한 코드를 작성해보겠습니다. 아래의 예제 코드는 네이버 뉴스 홈페이지에서 뉴스 제목을 모두 가져오는 코드입니다.
import requests
from bs4 import BeautifulSoup
url = 'https://news.naver.com/'
response = requests.get(url) # 웹 페이지 가져오기
html = response.text # 가져온 페이지의 HTML 코드를 문자열로 변환
soup = BeautifulSoup(html, 'html.parser') # BeautifulSoup 객체 생성
news_titles = soup.find_all('a', {'class': 'article'})
for title in news_titles: # 뉴스 제목 출력
print(title.text)
위의 코드를 실행하면 네이버 뉴스 홈페이지에서 최신 뉴스 제목을 출력할 수 있습니다.
스크롤링 주의사항
웹 페이지 스크롤링을 할 때에는 반드시 해당 사이트의 로봇 배제 표준을 확인하고 준수해야 합니다. 일부 사이트는 스크롤링을 금지하기 위해 로봇 배제 표준을 설정할 수 있습니다. 스크롤링을 할 때에는 항상 사이트의 이용 약관을 확인하고 스크롤링이 허용되는지 여부를 확인해야 합니다.
이제 Python을 사용하여 웹 페이지 스크롤링을 할 준비가 되었습니다. 관심 있는 웹 페이지에서 원하는 정보를 가져와 활용해보세요!