[python] Beautiful Soup로 웹 페이지에서 특정 이미지 속성 추출하기

이번 포스트에서는 Python 라이브러리인 Beautiful Soup을 사용하여 웹 페이지에서 특정 이미지의 속성을 추출하는 방법을 알아보겠습니다.

Beautiful Soup이란?

Beautiful Soup은 웹 스크래핑에 사용되는 Python 라이브러리로써, HTML 및 XML 문서를 파싱하고 구문 분석하는데 유용합니다. 이를 통해 웹 페이지에서 원하는 데이터를 쉽게 추출할 수 있습니다.

라이브러리 설치하기

먼저, Beautiful Soup 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

웹 페이지에서 이미지 속성 추출하기

이번 예제에서는 Python requests 라이브러리와 Beautiful Soup을 함께 사용하여 웹 페이지에서 특정 이미지의 속성을 추출할 것입니다.

import requests
from bs4 import BeautifulSoup

# 웹 페이지 URL
url = "https://example.com"

# 웹 페이지 요청
response = requests.get(url)

# HTML 파싱
soup = BeautifulSoup(response.text, "html.parser")

# 이미지 태그 추출
images = soup.find_all("img")

# 이미지 속성 추출
for img in images:
    src = img["src"]
    alt = img["alt"]
    print("이미지 소스:", src)
    print("대체 텍스트:", alt)

위의 코드에서는 웹 페이지에서 모든 이미지 태그를 추출한 후, 각 이미지의 src 속성과 alt 속성을 출력합니다. 필요한 속성은 find_all() 메소드를 사용하여 추출할 수 있습니다. 또한, img 객체의 속성은 딕셔너리처럼 접근할 수 있습니다.

결론

Beautiful Soup을 사용하면 웹 페이지에서 손쉽게 데이터를 추출할 수 있습니다. 특히, 이미지와 같은 특정 속성을 찾아내는 작업에 매우 유용합니다. 위의 예제 코드를 활용하여 다양한 웹 스크래핑 작업에 도전해보세요!

참고 자료