[python] Beautiful Soup로 웹 페이지의 모든 태그 속성 삭제하기

30 Nov 2023

python

웹 스크래핑을 하다보면 웹 페이지에서 필요한 정보를 가져올 때 태그의 속성들이 가끔 방해가 될 때가 있습니다. 이럴 때 Beautiful Soup 라이브러리를 사용하면 웹 페이지에서 모든 태그의 속성을 삭제할 수 있습니다.

필요한 라이브러리 설치하기

먼저, Beautiful Soup 라이브러리를 설치해야 합니다. 다음 명령어를 터미널에 입력하여 설치할 수 있습니다.

pip install beautifulsoup4

코드 예제

다음은 Beautiful Soup를 사용하여 웹 페이지의 모든 태그 속성을 삭제하는 예제 코드입니다.

from bs4 import BeautifulSoup

# HTML 문서를 파싱하여 BeautifulSoup 객체 생성
html = """
<html>
    <head>
        <title>웹 페이지 제목</title>
    </head>
    <body>
        <h1 class="title">웹 페이지 제목</h1>
        <p class="content">웹 페이지 내용</p>
        <div id="container">
            <img src="image.jpg" alt="이미지">
        </div>
    </body>
</html>
"""

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, 'html.parser')

# 모든 태그의 속성을 삭제
for tag in soup.find_all():
    tag.attrs = {}

# 변경된 HTML 출력
print(soup.prettify())

위의 코드를 실행하면, 주어진 HTML 문서에서 모든 태그의 속성들이 삭제된 결과가 출력됩니다.

결론

Beautiful Soup 라이브러리를 사용하면 웹 페이지에서 필요한 정보를 쉽게 추출할 수 있습니다. 태그의 속성들을 삭제하여 필요한 정보에만 집중할 수 있습니다. Beautiful Soup에 대한 자세한 내용은 공식 문서를 참고하시기 바랍니다.