[파이썬] 웹 스크래핑과 자동차 정보 추출

01 Sep 2023

python

웹 스크래핑은 인터넷에서 정보를 추출하는 프로세스를 의미합니다. 이를 통해 웹 사이트에서 필요한 데이터를 추출하고, 예를 들어 자동차에 대한 정보를 수집할 수 있습니다. 이번 포스트에서는 파이썬을 사용하여 웹 스크래핑을 수행하고, 자동차 정보를 추출하는 간단한 예제를 살펴보겠습니다.

필요한 라이브러리 설치

웹 스크래핑과 데이터 추출을 위해 다음과 같은 파이썬 라이브러리를 설치해야 합니다.

pip install requests
pip install beautifulsoup4

웹 페이지 가져오기

먼저, 웹 페이지의 HTML 코드를 가져와야 합니다. 이를 위해 requests 라이브러리를 사용하겠습니다.

import requests

url = "https://www.example.com"
response = requests.get(url)

html = response.text

위의 코드에서 url 변수에는 웹 페이지의 주소를 입력하고, requests.get 함수로 해당 주소에 요청을 보냅니다. 그리고 response.text를 통해 받아온 HTML 코드를 html 변수에 저장합니다.

웹 페이지 분석하기

다음으로, beautifulsoup4 라이브러리를 사용하여 웹 페이지를 분석해야 합니다. 이 라이브러리는 HTML 코드를 구문 분석하고, 원하는 정보를 추출하는데 도움을 줍니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "html.parser")

위의 코드에서 BeautifulSoup 객체를 생성하여 html 코드를 분석합니다. 분석이 완료된 객체를 soup 변수에 저장합니다.

정보 추출하기

이제, 웹 페이지에서 원하는 정보를 추출할 수 있습니다. 예를 들어, 자동차의 제조사와 모델을 추출해보겠습니다.

car_info = soup.find("div", {"class": "car-info"})
manufacturer = car_info.find("span", {"class": "manufacturer"}).text
model = car_info.find("span", {"class": "model"}).text

print("자동차 제조사:", manufacturer)
print("자동차 모델:", model)

위의 코드에서는 soup 객체의 find 메소드를 사용하여 원하는 요소를 찾습니다. 여기서는 자동차 정보를 담고 있는 div 요소를 찾은 후, 제조사와 모델을 추출합니다. 추출된 정보는 text 속성을 통해 가져올 수 있습니다. 마지막으로, 추출한 정보를 출력합니다.

이처럼, 웹 스크래핑을 통해 자동차 정보를 추출할 수 있습니다. 웹 스크래핑은 많은 분야에서 유용하게 활용될 수 있으며, 파이썬을 통해 간편하게 수행할 수 있습니다.