[python] Beautiful Soup로 웹 페이지의 모든 태그 지우기
Beautiful Soup은 Python의 HTML 및 XML 파싱 라이브러리로, 웹 페이지의 태그를 쉽게 분석하고 조작할 수 있습니다. 이번 블로그 포스트에서는 Beautiful Soup을 사용하여 웹 페이지에서 모든 태그를 제거하는 방법을 알아보겠습니다.
1. Beautiful Soup 설치하기
먼저, Beautiful Soup을 설치해야 합니다. 아래의 명령어를 사용하여 pip를 통해 Beautiful Soup을 설치하세요.
pip install beautifulsoup4
2. 웹 페이지의 태그 제거하기
Beautiful Soup을 사용하여 웹 페이지에서 태그를 제거하려면 다음과 같은 단계를 따릅니다.
2.1. 웹 페이지 데이터 가져오기
먼저, 웹 페이지의 HTML 데이터를 가져와야 합니다. requests
라이브러리를 사용하여 웹 페이지에서 데이터를 가져옵니다.
import requests
url = "http://example.com"
response = requests.get(url)
html_data = response.text
2.2. Beautiful Soup 객체 생성하기
가져온 HTML 데이터를 기반으로 Beautiful Soup 객체를 생성합니다.
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_data, 'html.parser')
2.3. 태그 제거하기
soup
객체를 사용하여 웹 페이지의 모든 태그를 제거합니다.
for tag in soup.find_all():
tag.extract()
위의 코드는 모든 태그를 찾아서 제거하는 코드입니다.
2.4. 태그 제거 후 결과 확인하기
태그가 제거된 웹 페이지의 결과를 확인해보세요.
result = soup.get_text()
print(result)
위의 코드는 태그가 제거된 웹 페이지의 텍스트만을 출력하는 코드입니다.
3. 전체 코드
아래는 위에서 설명한 내용을 포함한 전체 코드입니다.
import requests
from bs4 import BeautifulSoup
url = "http://example.com"
response = requests.get(url)
html_data = response.text
soup = BeautifulSoup(html_data, 'html.parser')
for tag in soup.find_all():
tag.extract()
result = soup.get_text()
print(result)
이렇게 하면 BeautifulSoup을 사용하여 웹 페이지에서 모든 태그를 제거할 수 있습니다. Beautiful Soup의 다양한 기능을 활용하여 웹 스크래핑에 유용하게 사용할 수 있습니다.