웹 스크래핑은 많은 정보를 추출하고 웹 페이지의 구조와 내용에 접근하는 강력한 도구입니다. Python에서는 Beautiful Soup 라이브러리를 사용하여 웹 페이지에서 데이터를 추출하고 조작할 수 있습니다. 이번에는 Beautiful Soup를 사용하여 웹 페이지의 모든 태그 속성을 추가하는 방법에 대해 알아보겠습니다.
1. Beautiful Soup 설치하기
먼저, Beautiful Soup를 설치해야 합니다. 아래의 명령을 사용하여 Beautiful Soup를 설치할 수 있습니다.
pip install beautifulsoup4
2. HTML 문서 가져오기
Beautiful Soup를 사용하기 전에 웹 페이지의 HTML 문서를 가져와야 합니다. 이를 위해 Python의 requests
라이브러리를 사용할 수 있습니다. 아래의 코드 예제는 requests
라이브러리를 사용하여 웹 페이지의 HTML을 가져오는 방법을 보여줍니다.
import requests
url = "https://example.com"
response = requests.get(url)
html = response.content
3. Beautiful Soup로 태그 속성 추가하기
이제 가져온 HTML 문서를 Beautiful Soup로 파싱하여 태그 속성을 추가할 수 있습니다. 아래의 코드 예제는 Beautiful Soup를 사용하여 모든 태그에 data-my-attribute
라는 속성을 추가하는 방법을 보여줍니다.
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
for tag in soup.find_all(True):
tag["data-my-attribute"] = "attribute value"
modified_html = str(soup)
위의 코드에서, find_all
메서드는 모든 태그를 찾습니다. 각 태그에 data-my-attribute
속성을 추가하기 위해, 각 태그의 dictionary
형태로 접근하여 속성을 추가합니다. 마지막으로, 수정된 HTML 문서는 str
형태로 변환하여 사용할 수 있습니다.
마치며
Beautiful Soup를 사용하면 웹 페이지의 HTML 문서를 쉽게 파싱하고 조작할 수 있습니다. 이번 예제에서는 Beautiful Soup를 사용하여 모든 태그에 속성을 추가하는 방법을 알아보았습니다. 이를 응용하여 웹 스크래핑에 유용하게 사용해보세요!