[python] Beautiful Soup로 웹 페이지의 모든 속성 추출하기

30 Nov 2023

python

Beautiful Soup은 파이썬의 웹 크롤링 라이브러리로, HTML 및 XML 문서의 파싱에 사용됩니다. Beautiful Soup을 사용하면 웹 페이지의 속성을 간편하게 추출할 수 있습니다. 이번 포스트에서는 Beautiful Soup을 사용하여 웹 페이지의 모든 속성을 추출하는 방법에 대해 알아보겠습니다.

1. Beautiful Soup 설치하기

먼저, Beautiful Soup을 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

2. Beautiful Soup을 사용하여 웹 페이지 파싱하기

Beautiful Soup은 HTML 및 XML 문서를 파싱하는 기능을 제공합니다. 먼저, 웹 페이지를 다운로드하고 BeautifulSoup 객체를 생성해야 합니다. 다음은 이 과정을 단계별로 보여줍니다.

import requests
from bs4 import BeautifulSoup

# 웹 페이지 다운로드
url = "http://example.com"
response = requests.get(url)

# BeautifulSoup 객체 생성
soup = BeautifulSoup(response.text, "html.parser")

3. 모든 속성 추출하기

Beautiful Soup 객체를 사용하여 웹 페이지의 모든 속성을 추출할 수 있습니다. find_all 메소드를 사용하면 웹 페이지에서 특정 태그를 선택할 수 있고, attrs 속성을 사용하면 해당 태그의 모든 속성을 가져올 수 있습니다. 아래의 예시 코드는 웹 페이지에서 모든 <a> 태그를 선택하고 해당 태그의 모든 속성을 출력하는 코드입니다.

# 모든 <a> 태그 선택
a_tags = soup.find_all("a")

# 속성 출력
for a in a_tags:
    print(a.attrs)

4. 결과 확인하기

위의 코드를 실행하면 웹 페이지의 모든 <a> 태그의 속성이 출력됩니다. 이를 통해 해당 웹 페이지의 속성을 쉽게 확인할 수 있습니다.

이처럼 Beautiful Soup을 사용하여 웹 페이지의 모든 속성을 추출하는 방법을 알아보았습니다. Beautiful Soup의 강력한 기능을 활용하면 웹 크롤링 및 데이터 추출 작업을 더욱 효과적으로 수행할 수 있습니다.

참고 자료

Beautiful Soup Documentation