[python] Beautiful Soup로 웹 페이지에서 특정 태그 삭제하기

30 Nov 2023

python

때로는 웹 페이지에서 특정 태그를 삭제해야 할 때가 있습니다. 예를 들어, 웹 크롤링을 할 때 특정 태그에 포함된 정보를 필요로 하지 않을 수 있습니다.

이 문제를 해결하기 위해 Python의 Beautiful Soup 라이브러리를 사용할 수 있습니다. Beautiful Soup는 HTML 및 XML 문서를 파싱하고 데이터 추출을 도와주는 강력한 도구입니다.

아래 예제에서는 Beautiful Soup를 사용하여 웹 페이지에서 특정 태그를 삭제하는 방법을 알아보겠습니다.

설치

먼저, Beautiful Soup 라이브러리를 설치해야 합니다. 아래 명령을 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

사용 방법

다음은 Beautiful Soup를 사용하여 웹 페이지에서 특정 태그를 삭제하는 예제입니다.

from bs4 import BeautifulSoup

# 웹 페이지 HTML 코드
html = """
<html>
<head>
<title>웹 페이지 예제</title>
</head>
<body>
<h1>환영합니다!</h1>
<p>이 문장은 유지하고 싶습니다.</p>
<div>이 태그는 삭제되어야 합니다.</div>
</body>
</html>
"""

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, 'html.parser')

# 삭제할 태그 선택
tag_to_remove = soup.find('div')

# 태그 삭제
tag_to_remove.decompose()

# 결과 출력
print(soup)

위 코드는 주어진 HTML 코드에 대해 div 태그를 찾아 삭제하는 방법을 보여줍니다. decompose() 메서드를 사용하여 태그를 삭제하고, 변경된 HTML 코드를 출력합니다.

결과

실행 결과는 다음과 같을 것입니다.

<html>
<head>
<title>웹 페이지 예제</title>
</head>
<body>
<h1>환영합니다!</h1>
<p>이 문장은 유지하고 싶습니다.</p>
</body>
</html>

위 결과에서는 div 태그가 삭제되고 나머지 내용은 그대로 유지되었습니다.

결론

이상으로 Beautiful Soup를 사용하여 웹 페이지에서 특정 태그를 삭제하는 방법을 소개했습니다. Beautiful Soup는 텍스트 데이터를 추출하고 필요한 정보를 가져오는 데에 매우 효과적인 도구입니다. 더 많은 기능 및 사용법에 대해서는 공식 문서를 참조하시기 바랍니다.