[python] Beautiful Soup로 웹 페이지의 모든 태그 속성 추가하기

30 Nov 2023

python

웹 스크래핑은 많은 정보를 추출하고 웹 페이지의 구조와 내용에 접근하는 강력한 도구입니다. Python에서는 Beautiful Soup 라이브러리를 사용하여 웹 페이지에서 데이터를 추출하고 조작할 수 있습니다. 이번에는 Beautiful Soup를 사용하여 웹 페이지의 모든 태그 속성을 추가하는 방법에 대해 알아보겠습니다.

1. Beautiful Soup 설치하기

먼저, Beautiful Soup를 설치해야 합니다. 아래의 명령을 사용하여 Beautiful Soup를 설치할 수 있습니다.

pip install beautifulsoup4

2. HTML 문서 가져오기

Beautiful Soup를 사용하기 전에 웹 페이지의 HTML 문서를 가져와야 합니다. 이를 위해 Python의 requests 라이브러리를 사용할 수 있습니다. 아래의 코드 예제는 requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져오는 방법을 보여줍니다.

import requests

url = "https://example.com"
response = requests.get(url)
html = response.content

3. Beautiful Soup로 태그 속성 추가하기

이제 가져온 HTML 문서를 Beautiful Soup로 파싱하여 태그 속성을 추가할 수 있습니다. 아래의 코드 예제는 Beautiful Soup를 사용하여 모든 태그에 data-my-attribute라는 속성을 추가하는 방법을 보여줍니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "html.parser")

for tag in soup.find_all(True):
    tag["data-my-attribute"] = "attribute value"

modified_html = str(soup)

위의 코드에서, find_all 메서드는 모든 태그를 찾습니다. 각 태그에 data-my-attribute 속성을 추가하기 위해, 각 태그의 dictionary 형태로 접근하여 속성을 추가합니다. 마지막으로, 수정된 HTML 문서는 str 형태로 변환하여 사용할 수 있습니다.

마치며

Beautiful Soup를 사용하면 웹 페이지의 HTML 문서를 쉽게 파싱하고 조작할 수 있습니다. 이번 예제에서는 Beautiful Soup를 사용하여 모든 태그에 속성을 추가하는 방법을 알아보았습니다. 이를 응용하여 웹 스크래핑에 유용하게 사용해보세요!