[python] Beautiful Soup로 웹 페이지의 모든 이미지 추출하기

이번 포스트에서는 Beautiful Soup 라이브러리를 사용하여 웹 페이지에서 모든 이미지를 추출하는 방법에 대해 알아보겠습니다.

Beautiful Soup이란?

Beautiful Soup은 파이썬의 HTML 및 XML 분석 라이브러리입니다. 웹 스크래핑에 사용되며, 간편한 API를 제공하여 웹 페이지의 데이터를 추출하는 것을 도와줍니다.

설치

먼저 Beautiful Soup 라이브러리를 설치해야 합니다. 아래의 명령을 사용하세요:

pip install beautifulsoup4

웹 페이지에서 이미지 추출하기

다음은 Beautiful Soup을 사용하여 웹 페이지에서 이미지를 추출하는 예제 코드입니다.

from bs4 import BeautifulSoup
import requests

# 이미지를 추출할 웹 페이지의 URL
url = "http://example.com"

# 웹 페이지의 HTML을 가져오기
response = requests.get(url)
html = response.text

# Beautiful Soup 객체 생성
soup = BeautifulSoup(html, "html.parser")

# <img> 태그를 모두 찾아서 이미지 URL을 출력하기
images = soup.find_all('img')
for image in images:
    img_url = image['src']
    print(img_url)

위의 코드에서는 requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져오고, Beautiful Soup 객체를 생성한 후에 웹 페이지에서 <img> 태그를 찾아 이미지 URL을 출력합니다.

실행결과

위의 예제 코드를 실행하면 웹 페이지에서 사용된 모든 이미지의 URL이 출력됩니다.

http://example.com/image1.jpg
http://example.com/image2.jpg
...

결론

Beautiful Soup을 사용하면 간단하게 웹 페이지에서 이미지를 추출할 수 있습니다. 이를 응용하여 원하는 작업을 수행할 수 있습니다. 추가적인 기능 및 사용 방법에 대해서는 Beautiful Soup 공식 문서를 참고하시기 바랍니다.

참고 자료