[python] Beautiful Soup로 웹 페이지에서 특정 속성으로 정렬하기

30 Nov 2023

python

Beautiful Soup은 파이썬의 웹 스크래핑 도구로써, HTML 또는 XML 문서에서 데이터를 추출하고 조작하는데 사용됩니다. 이번에는 Beautiful Soup을 사용하여 웹 페이지에서 특정 속성으로 데이터를 정렬하는 방법에 대해 알아보겠습니다.

1. Beautiful Soup 설치하기

Beautiful Soup을 사용하기 위해서는 먼저 해당 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

2. 웹 페이지에서 데이터 가져오기

Beautiful Soup을 사용하여 웹 페이지에서 데이터를 가져오려면, requests 라이브러리를 함께 사용해야 합니다. 아래의 예제 코드를 참고해주세요.

import requests
from bs4 import BeautifulSoup

# 웹 페이지 URL
url = "http://example.com"
# requests를 사용하여 웹 페이지 내용 가져오기
response = requests.get(url)

# Beautiful Soup 객체 생성
soup = BeautifulSoup(response.text, "html.parser")

# 원하는 데이터 추출 및 정렬
# 예를 들어, <div> 태그 중 class가 "content"인 요소들을 추출하고, "id" 속성을 기준으로 정렬하기
contents = soup.find_all("div", class_="content")
sorted_contents = sorted(contents, key=lambda x: x.get("id"))

# 결과 출력
for content in sorted_contents:
    print(content.text)

위의 코드는 requests 라이브러리를 사용하여 웹 페이지의 HTML 내용을 가져오고, 이를 Beautiful Soup 객체로 변환하여 데이터를 추출하고 정렬하는 방법을 보여줍니다.

참고 자료

Beautiful Soup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
Requests 라이브러리 공식 문서: https://requests.readthedocs.io/en/latest/