[python] Beautiful Soup로 웹 페이지에서 특정 이미지 속성 추출하기
이번 포스트에서는 Python 라이브러리인 Beautiful Soup을 사용하여 웹 페이지에서 특정 이미지의 속성을 추출하는 방법을 알아보겠습니다.
Beautiful Soup이란?
Beautiful Soup은 웹 스크래핑에 사용되는 Python 라이브러리로써, HTML 및 XML 문서를 파싱하고 구문 분석하는데 유용합니다. 이를 통해 웹 페이지에서 원하는 데이터를 쉽게 추출할 수 있습니다.
라이브러리 설치하기
먼저, Beautiful Soup 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.
pip install beautifulsoup4
웹 페이지에서 이미지 속성 추출하기
이번 예제에서는 Python requests 라이브러리와 Beautiful Soup을 함께 사용하여 웹 페이지에서 특정 이미지의 속성을 추출할 것입니다.
import requests
from bs4 import BeautifulSoup
# 웹 페이지 URL
url = "https://example.com"
# 웹 페이지 요청
response = requests.get(url)
# HTML 파싱
soup = BeautifulSoup(response.text, "html.parser")
# 이미지 태그 추출
images = soup.find_all("img")
# 이미지 속성 추출
for img in images:
src = img["src"]
alt = img["alt"]
print("이미지 소스:", src)
print("대체 텍스트:", alt)
위의 코드에서는 웹 페이지에서 모든 이미지 태그를 추출한 후, 각 이미지의 src
속성과 alt
속성을 출력합니다. 필요한 속성은 find_all()
메소드를 사용하여 추출할 수 있습니다. 또한, img
객체의 속성은 딕셔너리처럼 접근할 수 있습니다.
결론
Beautiful Soup을 사용하면 웹 페이지에서 손쉽게 데이터를 추출할 수 있습니다. 특히, 이미지와 같은 특정 속성을 찾아내는 작업에 매우 유용합니다. 위의 예제 코드를 활용하여 다양한 웹 스크래핑 작업에 도전해보세요!