[python] 웹 스크래핑
웹 스크래핑은 웹 사이트에서 원하는 정보를 수집하는 프로세스를 말합니다. 파이썬을 사용하여 웹 스크래핑을 하는 방법을 알아보겠습니다.
필수 라이브러리 설치
먼저, 웹 스크래핑을 위해 필요한 라이브러리를 설치해야 합니다. Beautiful Soup과 Requests 라이브러리를 사용하여 간단한 예제를 작성해보겠습니다. 다음 명령을 사용하여 이 두 라이브러리를 설치합니다.
pip install beautifulsoup4
pip install requests
웹 페이지에서 데이터 가져오기
이제, Requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져올 수 있습니다. 다음은 파이썬 코드에서 Requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져오는 예제입니다.
import requests
url = 'http://example.com'
response = requests.get(url)
print(response.text)
HTML 파싱하기
Beautiful Soup 라이브러리를 사용하여 가져온 HTML에서 필요한 정보를 추출할 수 있습니다. 다음 예제는 Beautiful Soup 라이브러리를 사용하여 HTML에서 제목 태그의 내용을 가져오는 방법을 보여줍니다.
from bs4 import BeautifulSoup
html_doc = response.text
soup = BeautifulSoup(html_doc, 'html.parser')
title = soup.title.string
print(title)
결론
이러한 방법을 사용하여 파이썬을 통해 웹 스크래핑을 할 수 있습니다. 그러나 웹 사이트의 이용 약관을 준수하고, 데이터를 합법적인 방법으로 사용하는 것이 중요합니다.
위 예제는 웹 스크래핑에 대한 간단한 소개일 뿐이며, 실제로는 더 많은 처리가 필요할 수 있습니다. 웹 스크래핑을 할 때는 데이터 보호 및 웹 사이트의 이용 약관을 준수해야 합니다.