[파이썬] 웹 스크래핑과 인테리어 정보 추출

01 Sep 2023

python

이 글에서는 파이썬을 사용하여 웹 스크래핑을 통해 인테리어 정보를 추출하는 방법에 대해 알아보겠습니다.

웹 스크래핑 소개

웹 스크래핑(Web scraping)은 웹 사이트로부터 데이터를 추출하는 프로세스입니다. 스크래핑을 통해 웹 사이트에 게시된 정보를 수집하고, 자동화된 방식으로 데이터를 가공하고 저장할 수 있습니다. 파이썬은 이러한 웹 스크래핑 작업을 수행하기에 매우 편리한 도구입니다.

필요한 라이브러리 설치

웹 스크래핑을 위해 다음과 같은 라이브러리들을 설치해야합니다.

pip install requests BeautifulSoup4

requests는 웹 사이트에 HTTP 요청을 보내고 응답을 받기 위해 사용됩니다.
BeautifulSoup4는 웹 페이지의 HTML 구조를 파싱하고 원하는 데이터를 추출하기 위해 사용됩니다.

웹 스크래핑 코드 작성

아래는 예제 코드입니다. 코드를 이해하고 원하는 웹 페이지에 적용해보세요.

import requests
from bs4 import BeautifulSoup

# 스크래핑할 웹 사이트 URL
url = "https://www.interiordesign.net/"

# HTTP GET 요청 보내기
response = requests.get(url)

# 응답 받은 HTML 파싱
soup = BeautifulSoup(response.text, 'html.parser')

# 추출할 정보를 포함한 웹 페이지 요소 찾기
interior_elements = soup.find_all('div', class_='interior')

# 추출한 정보 출력
for element in interior_elements:
    title = element.find('h2').text
    description = element.find('p').text

    print("Title: ", title)
    print("Description: ", description)
    print("---------------------")

코드 분석

requests 모듈을 사용하여 해당 URL로 HTTP GET 요청을 보냅니다.
받은 응답을 BeautifulSoup 객체로 변환하여 HTML을 파싱합니다.
find_all 메소드를 사용하여 “interior” 클래스를 가진 모든 div 요소를 찾습니다.
각 div 요소에서 h2 요소와 p 요소를 추출하여 제목과 설명을 가져옵니다.
가져온 정보를 출력합니다.

실행 결과

위의 코드를 실행하면, 해당 웹 페이지에서 인테리어 정보를 추출하여 출력할 수 있습니다.

마무리

이처럼 파이썬을 사용하여 웹 스크래핑을 수행하면 다양한 웹 사이트로부터 필요한 정보를 추출할 수 있습니다. 원활한 스크래핑을 위해 웹 사이트에서 로봇 방문을 허용하는지 확인하는 것이 중요합니다. 또한 스크래핑의 법적 측면과 웹 사이트의 이용 약관을 정확히 따라야하는 점을 유의해야합니다.

참고 자료: