[python] Beautiful Soup로 웹 페이지의 모든 이미지 추출하기
이번 포스트에서는 Beautiful Soup 라이브러리를 사용하여 웹 페이지에서 모든 이미지를 추출하는 방법에 대해 알아보겠습니다.
Beautiful Soup이란?
Beautiful Soup은 파이썬의 HTML 및 XML 분석 라이브러리입니다. 웹 스크래핑에 사용되며, 간편한 API를 제공하여 웹 페이지의 데이터를 추출하는 것을 도와줍니다.
설치
먼저 Beautiful Soup 라이브러리를 설치해야 합니다. 아래의 명령을 사용하세요:
pip install beautifulsoup4
웹 페이지에서 이미지 추출하기
다음은 Beautiful Soup을 사용하여 웹 페이지에서 이미지를 추출하는 예제 코드입니다.
from bs4 import BeautifulSoup
import requests
# 이미지를 추출할 웹 페이지의 URL
url = "http://example.com"
# 웹 페이지의 HTML을 가져오기
response = requests.get(url)
html = response.text
# Beautiful Soup 객체 생성
soup = BeautifulSoup(html, "html.parser")
# <img> 태그를 모두 찾아서 이미지 URL을 출력하기
images = soup.find_all('img')
for image in images:
img_url = image['src']
print(img_url)
위의 코드에서는 requests
라이브러리를 사용하여 웹 페이지의 HTML을 가져오고, Beautiful Soup 객체를 생성한 후에 웹 페이지에서 <img>
태그를 찾아 이미지 URL을 출력합니다.
실행결과
위의 예제 코드를 실행하면 웹 페이지에서 사용된 모든 이미지의 URL이 출력됩니다.
http://example.com/image1.jpg
http://example.com/image2.jpg
...
결론
Beautiful Soup을 사용하면 간단하게 웹 페이지에서 이미지를 추출할 수 있습니다. 이를 응용하여 원하는 작업을 수행할 수 있습니다. 추가적인 기능 및 사용 방법에 대해서는 Beautiful Soup 공식 문서를 참고하시기 바랍니다.