[파이썬] 웹 스크래핑과 가구 정보 추출

01 Sep 2023

python

웹 스크래핑은 인터넷 상의 웹 페이지에서 데이터를 추출하는 과정을 의미합니다. 이번 글에서는 파이썬을 사용하여 웹 스크래핑을 하고, 가구 정보를 추출하는 방법에 대해 알아보겠습니다.

웹 스크래핑을 위한 라이브러리

가장 많이 사용되는 웹 스크래핑 라이브러리는 BeautifulSoup와 requests입니다.

import requests
from bs4 import BeautifulSoup

requests 라이브러리는 웹 페이지에 접속하기 위해 사용되며, BeautifulSoup는 HTML 구조를 분석하고 원하는 데이터를 추출하는 데에 사용됩니다.

웹 페이지 접속

가구 정보를 추출하기 위해 웹 페이지에 접속해야 합니다. 이를 위해서는 웹 페이지의 URL을 알아야 합니다.

url = "https://www.example.com/furniture"
response = requests.get(url)

requests.get() 함수를 사용하여 해당 URL에 GET 요청을 보내고, 응답을 받아옵니다.

HTML 파싱

받아온 응답을 HTML 형식으로 파싱하여 데이터를 추출할 수 있습니다.

soup = BeautifulSoup(response.text, 'html.parser')

BeautifulSoup 라이브러리를 사용하여 응답의 텍스트를 HTML 형태로 파싱합니다.

가구 정보 추출

파싱한 HTML에서 원하는 가구 정보를 추출하기 위해 알맞은 태그와 클래스를 찾아야 합니다. 예를 들어, 가구의 이름과 가격을 추출하는 코드는 다음과 같습니다.

furniture_name = soup.find('div', class_='name').text
furniture_price = soup.find('div', class_='price').text

soup.find() 함수를 사용하여 원하는 태그와 클래스를 찾고, text 속성을 사용하여 텍스트 데이터를 추출합니다.

데이터 저장

가구 정보를 추출한 후에는 그 데이터를 필요에 따라 저장할 수 있습니다. 예를 들어, CSV 파일 형식으로 저장하는 코드는 다음과 같습니다.

import csv

with open('furniture_info.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['Name', 'Price'])
    writer.writerow([furniture_name, furniture_price])

csv.writer() 함수를 사용하여 CSV 파일에 데이터를 작성합니다.

마무리

이처럼 파이썬을 사용하여 웹 스크래핑을 통해 가구 정보를 추출하는 방법을 알아보았습니다. 웹 스크래핑은 다양한 분야에서 유용하게 사용될 수 있으며, 원하는 데이터를 쉽게 추출할 수 있도록 도와줍니다.