[파이썬] Beautiful Soup 4 태그 수정 및 조작

이번 포스팅에서는 Python의 Beautiful Soup 4 라이브러리를 사용하여 HTML 태그를 수정하고 조작하는 방법에 대해 알아보겠습니다. Beautiful Soup은 웹 스크레이핑에 매우 효과적인 도구로, HTML 및 XML 문서를 파싱하고 원하는 데이터를 추출할 수 있습니다.

Beautiful Soup을 사용하여 태그를 수정하고 조작하는 기본적인 절차는 다음과 같습니다:

  1. 원하는 HTML 문서를 불러옵니다.
  2. Beautiful Soup 객체를 생성합니다.
  3. 수정 또는 조작할 태그를 선택합니다.
  4. 태그의 속성을 수정하거나, 태그를 삭제하거나, 새로운 태그를 추가합니다.
  5. 수정된 HTML 문서를 저장합니다.

아래 예시 코드에서는 Beautiful Soup을 사용하여 HTML 문서에서 태그를 수정하는 방법을 보여줍니다:

from bs4 import BeautifulSoup

# HTML 문서를 불러옵니다.
html_doc = """
<html>
<head>
<title>Beautiful Soup 4 태그 수정</title>
</head>
<body>
<h1 id="title">Beautiful Soup 4 태그 수정</h1>
<p class="content">Beautiful Soup 4는 HTML 태그를 수정하고 조작하는 데 매우 유용합니다.</p>
</body>
</html>
"""

# Beautiful Soup 객체를 생성합니다.
soup = BeautifulSoup(html_doc, 'html.parser')

# 수정할 태그를 선택합니다.
title_tag = soup.find('title')
content_tag = soup.find('p', class_='content')

# 태그의 속성을 수정합니다.
title_tag.string = 'Beautiful Soup 4 태그 수정 및 조작'
content_tag['class'] = 'modified-content'

# 수정된 HTML 문서를 출력합니다.
print(soup.prettify())

위 코드를 실행하면, 다음과 같이 HTML 문서에서 태그를 수정한 결과를 출력합니다:

<html>
<head>
<title>Beautiful Soup 4 태그 수정 및 조작</title>
</head>
<body>
<h1 id="title">Beautiful Soup 4 태그 수정 및 조작</h1>
<p class="modified-content">Beautiful Soup 4는 HTML 태그를 수정하고 조작하는 데 매우 유용합니다.</p>
</body>
</html>

위 예시에서는 find() 메서드를 사용하여 원하는 태그를 선택한 후, 해당 태그의 속성을 수정하였습니다. .string 속성을 사용하면 태그 내의 텍스트를 수정할 수 있고, [] 문법을 사용하면 태그의 속성을 수정할 수 있습니다.

또한, BeautifulSoup을 사용하여 태그를 추가하거나 삭제하는 방법도 동일한 절차로 수행할 수 있습니다. 추가적인 태그 조작에 대한 자세한 내용은 Beautiful Soup 공식 문서를 참고하시기 바랍니다.

이제 당신도 Beautiful Soup 4의 강력한 태그 수정 및 조작 기능을 활용하여 웹 스크레이핑 프로젝트를 더욱 효율적으로 진행할 수 있을 것입니다!