[python] Beautiful Soup로 웹 페이지에서 특정 텍스트 속성 추출하기
Beautiful Soup은 Python의 HTML 및 XML 파싱 라이브러리로, 웹 페이지에서 데이터를 추출하고 조작하는데 도움이 됩니다. 이번에는 Beautiful Soup을 사용하여 웹 페이지에서 특정 텍스트 속성을 추출하는 방법을 알아보겠습니다.
1. Beautiful Soup 설치
먼저, Beautiful Soup을 설치해야 합니다. 아래의 명령을 사용하여 설치할 수 있습니다.
pip install beautifulsoup4
2. 웹 페이지에서 텍스트 속성 추출하기
Beautiful Soup을 사용하여 웹 페이지의 텍스트 속성을 추출하는 방법은 다음과 같습니다:
from bs4 import BeautifulSoup
import requests
# 웹 페이지 주소
url = "https://example.com"
# 웹 페이지 요청
response = requests.get(url)
# BeautifulSoup으로 웹 페이지 파싱
soup = BeautifulSoup(response.content, 'html.parser')
# 특정 텍스트 속성 추출
text = soup.find('tag_name', attrs={'attribute_name': 'attribute_value'}).text
# 추출한 속성 출력
print(text)
위의 코드에서 “tag_name”, “attribute_name”, “attribute_value”는 실제 웹 페이지에서 찾고자 하는 텍스트 속성의 정보로 바꿔야 합니다. 예를 들어, <h1 class="title">Hello World</h1>
이라는 HTML 소스 코드에서 “Hello World”를 추출하기 위해서는 다음과 같이 코드를 작성해야 합니다.
text = soup.find('h1', attrs={'class': 'title'}).text
print(text) # 출력 결과: Hello World
3. 참고 자료
위의 방법을 사용하여 Beautiful Soup으로 웹 페이지에서 특정 텍스트 속성을 추출할 수 있습니다. Beautiful Soup의 다양한 기능을 사용하여 웹 크롤링 및 데이터 스크래핑을 더욱 효과적으로 수행할 수 있습니다.