[python] 웹 페이지에서 이미지 스크레이핑하기

21 Nov 2023

python

이미지 스크레이핑은 웹 페이지에서 이미지를 수집하는 작업을 의미합니다. 파이썬을 사용하여 웹 페이지에서 이미지를 스크레이핑하는 방법을 알아보겠습니다.

필요한 라이브러리 설치하기

먼저, 이미지 스크레이핑에 필요한 라이브러리를 설치해야 합니다. requests와 beautifulsoup4를 설치하면 웹 페이지에서 HTML을 가져오고 파싱할 수 있습니다.

pip install requests beautifulsoup4

웹 페이지에서 이미지 URL 추출하기

다음으로, 웹 페이지에서 이미지 URL을 추출하는 코드를 작성해야 합니다. requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져오고, beautifulsoup4를 사용하여 HTML에서 이미지 태그를 찾아서 URL을 추출합니다.

import requests
from bs4 import BeautifulSoup

url = "https://example.com" # 웹 페이지 URL 입력

# 웹 페이지의 HTML 가져오기
response = requests.get(url)
html = response.text

# BeautifulSoup를 사용하여 HTML 파싱
soup = BeautifulSoup(html, "html.parser")

# 이미지 태그 찾기
images = soup.find_all("img")

# 이미지 URL 출력
for image in images:
    print(image["src"])

위의 코드를 실행하면 해당 웹 페이지의 모든 이미지 URL을 출력할 수 있습니다.

이미지 다운로드하기

마지막으로, 추출한 이미지 URL을 사용하여 이미지를 다운로드하는 코드를 작성해야 합니다. requests 라이브러리의 get 메서드를 사용하여 이미지 파일을 다운로드할 수 있습니다.

import requests

# 이미지 URL 입력
image_url = "https://example.com/image.jpg"

# 이미지 다운로드
response = requests.get(image_url)

# 이미지 파일 저장
with open("image.jpg", "wb") as file:
    file.write(response.content)

print("이미지 다운로드 완료")

위의 코드를 실행하면 이미지가 현재 작업 디렉토리에 image.jpg 파일로 저장됩니다.

결론

이상으로 파이썬을 사용하여 웹 페이지에서 이미지를 스크레이핑하는 방법에 대해 알아보았습니다. 위에서 소개한 코드를 사용하여 자신이 원하는 웹 페이지에서 이미지를 스크레이핑해보세요.