[파이썬] 웹 스크래핑과 만화 정보 추출

01 Sep 2023

python

웹 스크래핑은 웹 페이지에서 필요한 정보를 추출하는 기술입니다. 이를 통해 만화 사이트에서 만화 제목, 작가, 출판사 등의 정보를 추출할 수 있습니다.

Python은 웹 스크래핑을 위한 다양한 라이브러리와 도구를 제공하고 있으며, 간단한 코드 몇 줄만으로도 웹 스크래핑을 할 수 있습니다. 이제 Python을 사용하여 만화 사이트에서 만화 정보를 추출해보겠습니다.

라이브러리 설치

웹 스크래핑에는 BeautifulSoup과 requests 라이브러리가 필요합니다. 다음 명령어로 필요한 라이브러리를 설치하세요.

pip install beautifulsoup4 requests

웹 스크래핑 코드 작성

import requests
from bs4 import BeautifulSoup

# 스크래핑할 웹 페이지 URL
url = 'https://www.example.com/manga'

# GET 요청을 보내고 응답을 받습니다.
response = requests.get(url)

# Response 객체의 HTML 소스코드를 추출합니다.
html = response.text

# BeautifulSoup 객체를 생성합니다.
soup = BeautifulSoup(html, 'html.parser')

# 만화 정보를 담을 리스트를 생성합니다.
manga_list = []

# 만화 목록을 추출합니다.
manga_elems = soup.find_all('div', class_='manga-info')

# 각 만화 정보를 추출하여 리스트에 추가합니다.
for manga_elem in manga_elems:
    title = manga_elem.find('h2', class_='title').text
    author = manga_elem.find('p', class_='author').text
    publisher = manga_elem.find('p', class_='publisher').text

    manga_info = {
        'title': title,
        'author': author,
        'publisher': publisher
    }

    manga_list.append(manga_info)

# 만화 정보를 출력합니다.
for manga_info in manga_list:
    print('Title: {}'.format(manga_info['title']))
    print('Author: {}'.format(manga_info['author']))
    print('Publisher: {}'.format(manga_info['publisher']))
    print('------------------------')

위 코드는 ‘https://www.example.com/manga’에서 만화 정보를 추출하는 예시입니다. 만화 정보는 만화 제목, 작가, 출판사로 구성되어 있으며, 각 정보는 딕셔너리로 구성되어 리스트에 추가됩니다.

결과 예시

Title: 만화1
Author: 작가1
Publisher: 출판사1
------------------------
Title: 만화2
Author: 작가2
Publisher: 출판사2
------------------------
Title: 만화3
Author: 작가3
Publisher: 출판사3
------------------------

위 예시는 만화 사이트에서 추출한 만화 정보의 예시입니다. 웹 스크래핑을 통해 필요한 정보를 쉽고 빠르게 추출할 수 있습니다.

이처럼 Python을 사용하여 웹 스크래핑을 할 수 있으며, 이를 활용하여 다양한 웹 데이터를 손쉽게 추출할 수 있습니다.