[python] Beautiful Soup로 웹 페이지에서 특정 텍스트 속성 추출하기

30 Nov 2023

python

Beautiful Soup은 Python의 HTML 및 XML 파싱 라이브러리로, 웹 페이지에서 데이터를 추출하고 조작하는데 도움이 됩니다. 이번에는 Beautiful Soup을 사용하여 웹 페이지에서 특정 텍스트 속성을 추출하는 방법을 알아보겠습니다.

1. Beautiful Soup 설치

먼저, Beautiful Soup을 설치해야 합니다. 아래의 명령을 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

2. 웹 페이지에서 텍스트 속성 추출하기

Beautiful Soup을 사용하여 웹 페이지의 텍스트 속성을 추출하는 방법은 다음과 같습니다:

from bs4 import BeautifulSoup
import requests

# 웹 페이지 주소
url = "https://example.com"

# 웹 페이지 요청
response = requests.get(url)

# BeautifulSoup으로 웹 페이지 파싱
soup = BeautifulSoup(response.content, 'html.parser')

# 특정 텍스트 속성 추출
text = soup.find('tag_name', attrs={'attribute_name': 'attribute_value'}).text

# 추출한 속성 출력
print(text)

위의 코드에서 “tag_name”, “attribute_name”, “attribute_value”는 실제 웹 페이지에서 찾고자 하는 텍스트 속성의 정보로 바꿔야 합니다. 예를 들어, <h1 class="title">Hello World</h1>이라는 HTML 소스 코드에서 “Hello World”를 추출하기 위해서는 다음과 같이 코드를 작성해야 합니다.

text = soup.find('h1', attrs={'class': 'title'}).text
print(text)  # 출력 결과: Hello World

3. 참고 자료

위의 방법을 사용하여 Beautiful Soup으로 웹 페이지에서 특정 텍스트 속성을 추출할 수 있습니다. Beautiful Soup의 다양한 기능을 사용하여 웹 크롤링 및 데이터 스크래핑을 더욱 효과적으로 수행할 수 있습니다.