[python] Beautiful Soup로 웹 페이지에서 특정 속성값 추출하기

30 Nov 2023

python

웹 스크래핑을 할 때 특정 웹 페이지의 속성값을 추출해야 할 때가 있습니다. 이때 Beautiful Soup라는 파이썬 라이브러리를 사용하면 간편하게 속성값을 추출할 수 있습니다.

Beautiful Soup 설치하기

Beautiful Soup를 사용하기 위해서는 먼저 해당 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다:

pip install beautifulsoup4

웹 페이지에서 속성값 추출하기

Beautiful Soup를 사용하여 웹 페이지의 속성값을 추출하려면 다음과 같은 단계를 따라야 합니다:

웹 페이지의 HTML 코드를 가져옵니다.
Beautiful Soup 객체를 생성합니다.
해당 속성을 가진 요소를 찾습니다.
속성값을 추출합니다.

다음은 실제 예제 코드입니다. 이 예제에서는 ‘https://example.com’라는 웹 페이지에서 a 태그의 href 속성값을 추출합니다.

import requests
from bs4 import BeautifulSoup

# 웹 페이지의 HTML 코드 가져오기
url = 'https://example.com'
response = requests.get(url)
html = response.text

# Beautiful Soup 객체 생성
soup = BeautifulSoup(html, 'html.parser')

# 해당 속성을 가진 요소 찾기
a_tags = soup.find_all('a')

# 속성값 추출하기
for a in a_tags:
    print(a['href'])

위의 코드를 실행하면 ‘https://example.com’ 웹 페이지에서 모든 a 태그의 href 속성값이 출력됩니다.

참고 자료

Beautiful Soup 공식 문서