[파이썬] 웹 스크래핑과 웹툰 이미지 다운로드

01 Sep 2023

python

웹 스크래핑은 웹 사이트에서 데이터를 추출하는 프로세스를 의미합니다. 웹페이지의 HTML 구조를 분석하고, 필요한 정보를 추출하는 방법을 통해 데이터를 수집할 수 있습니다. 이번 블로그 포스트에서는 파이썬을 이용하여 웹 스크래핑을 수행하고, 웹툰 이미지를 다운로드하는 방법에 대해 알아보겠습니다.

웹 스크래핑을 위한 준비 작업

웹 스크래핑을 위해 다음과 같은 패키지를 설치해야 합니다:

pip install requests
pip install beautifulsoup4

requests 패키지는 웹 페이지에 접속하고, 데이터를 가져오는데 사용됩니다. beautifulsoup4 패키지는 HTML 구조를 파싱하여 필요한 데이터를 추출하는데 사용됩니다.

웹툰 이미지 다운로드하기

이번 예시에서는 인기 웹툰 사이트인 네이버 웹툰에서 웹툰 이미지를 다운로드하는 방법을 알아보겠습니다.

import requests
from bs4 import BeautifulSoup
import os

# 웹툰 페이지 URL
url = 'https://comic.naver.com/webtoon/detail.nhn?titleId=12345&no=1'

# requests를 통해 웹페이지에 접속
response = requests.get(url)

# BeautifulSoup을 이용해 HTML 구조를 파싱하고 웹툰 이미지 URL 추출
soup = BeautifulSoup(response.text, 'html.parser')
image_url = soup.find('img', {'id': 'comic'})['src']

# 이미지 다운로드 및 저장
image_response = requests.get(image_url)
image_name = os.path.basename(image_url)
with open(image_name, 'wb') as f:
    f.write(image_response.content)

print('이미지 다운로드 완료!')

위 코드에서는 네이버 웹툰의 첫 번째 화면에서 이미지를 다운로드하는 예시입니다. 웹툰 페이지의 URL을 지정하고, requests를 통해 해당 페이지에 접속합니다. 이후 BeautifulSoup을 이용해 HTML 구조를 파싱하고, 웹툰 이미지의 URL을 추출합니다. 마지막으로 requests를 통해 이미지를 다운로드하고, 저장합니다.

위 예시 코드를 실행하면 웹툰 이미지가 현재 작업 디렉토리에 다운로드되며, ‘이미지 다운로드 완료!’라는 메시지가 출력됩니다.

이와 같은 방식으로 웹툰 사이트에 접속하여 이미지를 다운로드할 수 있습니다. 웹 스크래핑을 통해 필요한 데이터를 수집하고 활용하는 다양한 기능들을 구현할 수 있으니, 웹 스크래핑에 대해 더 공부해보시기 바랍니다.