[python] Beautiful Soup로 웹 페이지의 모든 태그 속성 삭제하기
웹 스크래핑을 하다보면 웹 페이지에서 필요한 정보를 가져올 때 태그의 속성들이 가끔 방해가 될 때가 있습니다. 이럴 때 Beautiful Soup 라이브러리를 사용하면 웹 페이지에서 모든 태그의 속성을 삭제할 수 있습니다.
필요한 라이브러리 설치하기
먼저, Beautiful Soup 라이브러리를 설치해야 합니다. 다음 명령어를 터미널에 입력하여 설치할 수 있습니다.
pip install beautifulsoup4
코드 예제
다음은 Beautiful Soup를 사용하여 웹 페이지의 모든 태그 속성을 삭제하는 예제 코드입니다.
from bs4 import BeautifulSoup
# HTML 문서를 파싱하여 BeautifulSoup 객체 생성
html = """
<html>
<head>
<title>웹 페이지 제목</title>
</head>
<body>
<h1 class="title">웹 페이지 제목</h1>
<p class="content">웹 페이지 내용</p>
<div id="container">
<img src="image.jpg" alt="이미지">
</div>
</body>
</html>
"""
# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, 'html.parser')
# 모든 태그의 속성을 삭제
for tag in soup.find_all():
tag.attrs = {}
# 변경된 HTML 출력
print(soup.prettify())
위의 코드를 실행하면, 주어진 HTML 문서에서 모든 태그의 속성들이 삭제된 결과가 출력됩니다.
결론
Beautiful Soup 라이브러리를 사용하면 웹 페이지에서 필요한 정보를 쉽게 추출할 수 있습니다. 태그의 속성들을 삭제하여 필요한 정보에만 집중할 수 있습니다. Beautiful Soup에 대한 자세한 내용은 공식 문서를 참고하시기 바랍니다.