[파이썬] Beautiful Soup 4 태그 수정 및 조작
이번 포스팅에서는 Python의 Beautiful Soup 4 라이브러리를 사용하여 HTML 태그를 수정하고 조작하는 방법에 대해 알아보겠습니다. Beautiful Soup은 웹 스크레이핑에 매우 효과적인 도구로, HTML 및 XML 문서를 파싱하고 원하는 데이터를 추출할 수 있습니다.
Beautiful Soup을 사용하여 태그를 수정하고 조작하는 기본적인 절차는 다음과 같습니다:
- 원하는 HTML 문서를 불러옵니다.
- Beautiful Soup 객체를 생성합니다.
- 수정 또는 조작할 태그를 선택합니다.
- 태그의 속성을 수정하거나, 태그를 삭제하거나, 새로운 태그를 추가합니다.
- 수정된 HTML 문서를 저장합니다.
아래 예시 코드에서는 Beautiful Soup을 사용하여 HTML 문서에서 태그를 수정하는 방법을 보여줍니다:
from bs4 import BeautifulSoup
# HTML 문서를 불러옵니다.
html_doc = """
<html>
<head>
<title>Beautiful Soup 4 태그 수정</title>
</head>
<body>
<h1 id="title">Beautiful Soup 4 태그 수정</h1>
<p class="content">Beautiful Soup 4는 HTML 태그를 수정하고 조작하는 데 매우 유용합니다.</p>
</body>
</html>
"""
# Beautiful Soup 객체를 생성합니다.
soup = BeautifulSoup(html_doc, 'html.parser')
# 수정할 태그를 선택합니다.
title_tag = soup.find('title')
content_tag = soup.find('p', class_='content')
# 태그의 속성을 수정합니다.
title_tag.string = 'Beautiful Soup 4 태그 수정 및 조작'
content_tag['class'] = 'modified-content'
# 수정된 HTML 문서를 출력합니다.
print(soup.prettify())
위 코드를 실행하면, 다음과 같이 HTML 문서에서 태그를 수정한 결과를 출력합니다:
<html>
<head>
<title>Beautiful Soup 4 태그 수정 및 조작</title>
</head>
<body>
<h1 id="title">Beautiful Soup 4 태그 수정 및 조작</h1>
<p class="modified-content">Beautiful Soup 4는 HTML 태그를 수정하고 조작하는 데 매우 유용합니다.</p>
</body>
</html>
위 예시에서는 find()
메서드를 사용하여 원하는 태그를 선택한 후, 해당 태그의 속성을 수정하였습니다. .string
속성을 사용하면 태그 내의 텍스트를 수정할 수 있고, []
문법을 사용하면 태그의 속성을 수정할 수 있습니다.
또한, BeautifulSoup을 사용하여 태그를 추가하거나 삭제하는 방법도 동일한 절차로 수행할 수 있습니다. 추가적인 태그 조작에 대한 자세한 내용은 Beautiful Soup 공식 문서를 참고하시기 바랍니다.
이제 당신도 Beautiful Soup 4의 강력한 태그 수정 및 조작 기능을 활용하여 웹 스크레이핑 프로젝트를 더욱 효율적으로 진행할 수 있을 것입니다!