[파이썬] 웹 스크래핑과 도서 정보 추출

01 Sep 2023

python

웹 스크래핑(Web Scraping)은 웹 페이지에서 데이터를 추출하는 기술로, 파이썬과 같은 프로그래밍 언어를 사용하여 자동화된 방식으로 데이터를 수집할 수 있습니다. 이번에는 웹 스크래핑을 이용하여 도서 정보를 추출하는 방법에 대해 알아보겠습니다.

라이브러리 설치

도서 정보를 추출하기 위해 우리는 requests와 beautifulsoup4라는 파이썬 라이브러리를 사용할 것입니다. 다음 명령을 사용하여 두 라이브러리를 설치합니다:

pip install requests
pip install beautifulsoup4

웹 페이지 접속

우리가 도서 정보를 추출할 웹 페이지에 접속하여 웹 페이지의 HTML 코드를 얻어와야 합니다. 이를 위해 requests 라이브러리를 사용합니다. 다음 예제 코드를 통해 웹 페이지에 접속하는 방법을 알아보겠습니다:

import requests

url = "https://www.example.com/books"

response = requests.get(url)

if response.status_code == 200:
    html = response.text
else:
    print("Error:", response.status_code)

웹 페이지 파싱

얻어온 웹 페이지의 HTML 코드에서 도서 정보를 추출하기 위해 beautifulsoup4 라이브러리를 사용합니다. 이 라이브러리는 HTML 문서를 파싱하고 특정 요소를 선택하는 기능을 제공합니다. 다음 예제 코드를 통해 도서 정보를 추출하는 방법을 알아보겠습니다:

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "html.parser")

books = soup.find_all("div", class_="book")

for book in books:
    title = book.find("h2").text
    author = book.find("p", class_="author").text
    price = book.find("span", class_="price").text

    print("Title:", title)
    print("Author:", author)
    print("Price:", price)

위의 코드에서는 find_all 함수를 사용하여 div 요소 중 class 속성이 “book”인 요소들을 모두 찾고, 각각의 도서 정보를 추출합니다. 추출한 도서 정보는 변수에 할당된 후 출력됩니다.

결과 확인

위의 코드를 실행하면 웹 페이지에서 도서 정보를 추출하여 출력할 수 있습니다. 이를 통해 도서 정보를 쉽고 빠르게 얻을 수 있습니다.

이와 같은 방식으로 파이썬을 사용하여 웹 스크래핑을 수행하고 도서 정보를 추출하는 기능을 구현할 수 있습니다. 웹 스크래핑은 다양한 웹 사이트에서 데이터를 수집하는데 유용하며, 자동화된 정보 수집이 필요한 경우에 많이 사용되는 기술입니다.