[파이썬] 웹 스크래핑과 식물 정보 추출

01 Sep 2023

python

원하는 데이터를 웹에서 추출하는 웹 스크래핑은 파이썬에서 자주 사용되는 기술 중 하나입니다. 이번 글에서는 웹 스크래핑을 이용하여 식물 정보를 추출하는 예제 코드를 소개하겠습니다.

라이브러리 설치

먼저, 웹 스크래핑을 위해 필요한 라이브러리를 설치해야 합니다. 파이썬에서는 requests와 BeautifulSoup 라이브러리를 주로 사용합니다.

pip install requests beautifulsoup4

웹 스크래핑 예제 코드

아래는 예제 코드로, ‘식물 이름’과 ‘신체 정보’를 웹에서 추출하는 기능을 구현한 코드입니다.

import requests
from bs4 import BeautifulSoup

def get_plant_info(url):
    # 웹 페이지 요청
    response = requests.get(url)
    
    # HTML 파싱
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 식물 이름 추출
    plant_name = soup.find('h2').text
    
    # 신체 정보 추출
    plant_info = soup.find('div', class_='plant-info').text.strip()
    
    # 결과 반환
    return {
        'Name': plant_name,
        'Info': plant_info
    }

# 웹 페이지 URL
url = 'https://example.com/plants/123'

# 식물 정보 추출
result = get_plant_info(url)

# 결과 출력
print(result)

위 코드는 예제일 뿐, 웹 스크래핑을 위한 실제 사이트 URL과 식물 정보의 HTML 구조에 따라 수정해야 합니다.

실행 결과

위 예제 코드를 실행하면, 다음과 같은 결과를 얻을 수 있습니다.

{'Name': 'Rose', 'Info': 'Roses are woody-stemmed perennials with thorny stems.'}

마치며

이렇게 파이썬을 이용하여 웹 스크래핑을 통해 식물 정보를 추출하는 방법을 간단히 소개해드렸습니다. 웹 스크래핑은 다양한 영역에서 유용하게 사용될 수 있으므로, 추가적인 학습이 필요할 수 있습니다.