[파이썬] 웹 스크래핑과 만화 정보 추출
웹 스크래핑은 웹 페이지에서 필요한 정보를 추출하는 기술입니다. 이를 통해 만화 사이트에서 만화 제목, 작가, 출판사 등의 정보를 추출할 수 있습니다.
Python은 웹 스크래핑을 위한 다양한 라이브러리와 도구를 제공하고 있으며, 간단한 코드 몇 줄만으로도 웹 스크래핑을 할 수 있습니다. 이제 Python을 사용하여 만화 사이트에서 만화 정보를 추출해보겠습니다.
라이브러리 설치
웹 스크래핑에는 BeautifulSoup과 requests 라이브러리가 필요합니다. 다음 명령어로 필요한 라이브러리를 설치하세요.
pip install beautifulsoup4 requests
웹 스크래핑 코드 작성
import requests
from bs4 import BeautifulSoup
# 스크래핑할 웹 페이지 URL
url = 'https://www.example.com/manga'
# GET 요청을 보내고 응답을 받습니다.
response = requests.get(url)
# Response 객체의 HTML 소스코드를 추출합니다.
html = response.text
# BeautifulSoup 객체를 생성합니다.
soup = BeautifulSoup(html, 'html.parser')
# 만화 정보를 담을 리스트를 생성합니다.
manga_list = []
# 만화 목록을 추출합니다.
manga_elems = soup.find_all('div', class_='manga-info')
# 각 만화 정보를 추출하여 리스트에 추가합니다.
for manga_elem in manga_elems:
title = manga_elem.find('h2', class_='title').text
author = manga_elem.find('p', class_='author').text
publisher = manga_elem.find('p', class_='publisher').text
manga_info = {
'title': title,
'author': author,
'publisher': publisher
}
manga_list.append(manga_info)
# 만화 정보를 출력합니다.
for manga_info in manga_list:
print('Title: {}'.format(manga_info['title']))
print('Author: {}'.format(manga_info['author']))
print('Publisher: {}'.format(manga_info['publisher']))
print('------------------------')
위 코드는 ‘https://www.example.com/manga’에서 만화 정보를 추출하는 예시입니다. 만화 정보는 만화 제목, 작가, 출판사로 구성되어 있으며, 각 정보는 딕셔너리로 구성되어 리스트에 추가됩니다.
결과 예시
Title: 만화1
Author: 작가1
Publisher: 출판사1
------------------------
Title: 만화2
Author: 작가2
Publisher: 출판사2
------------------------
Title: 만화3
Author: 작가3
Publisher: 출판사3
------------------------
위 예시는 만화 사이트에서 추출한 만화 정보의 예시입니다. 웹 스크래핑을 통해 필요한 정보를 쉽고 빠르게 추출할 수 있습니다.
이처럼 Python을 사용하여 웹 스크래핑을 할 수 있으며, 이를 활용하여 다양한 웹 데이터를 손쉽게 추출할 수 있습니다.