[python] Beautiful Soup로 웹 페이지의 모든 태그 지우기

30 Nov 2023

python

Beautiful Soup은 Python의 HTML 및 XML 파싱 라이브러리로, 웹 페이지의 태그를 쉽게 분석하고 조작할 수 있습니다. 이번 블로그 포스트에서는 Beautiful Soup을 사용하여 웹 페이지에서 모든 태그를 제거하는 방법을 알아보겠습니다.

1. Beautiful Soup 설치하기

먼저, Beautiful Soup을 설치해야 합니다. 아래의 명령어를 사용하여 pip를 통해 Beautiful Soup을 설치하세요.

pip install beautifulsoup4

2. 웹 페이지의 태그 제거하기

Beautiful Soup을 사용하여 웹 페이지에서 태그를 제거하려면 다음과 같은 단계를 따릅니다.

2.1. 웹 페이지 데이터 가져오기

먼저, 웹 페이지의 HTML 데이터를 가져와야 합니다. requests 라이브러리를 사용하여 웹 페이지에서 데이터를 가져옵니다.

import requests

url = "http://example.com"
response = requests.get(url)
html_data = response.text

2.2. Beautiful Soup 객체 생성하기

가져온 HTML 데이터를 기반으로 Beautiful Soup 객체를 생성합니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_data, 'html.parser')

2.3. 태그 제거하기

soup 객체를 사용하여 웹 페이지의 모든 태그를 제거합니다.

for tag in soup.find_all():
    tag.extract()

위의 코드는 모든 태그를 찾아서 제거하는 코드입니다.

2.4. 태그 제거 후 결과 확인하기

태그가 제거된 웹 페이지의 결과를 확인해보세요.

result = soup.get_text()
print(result)

위의 코드는 태그가 제거된 웹 페이지의 텍스트만을 출력하는 코드입니다.

3. 전체 코드

아래는 위에서 설명한 내용을 포함한 전체 코드입니다.

import requests
from bs4 import BeautifulSoup

url = "http://example.com"
response = requests.get(url)
html_data = response.text

soup = BeautifulSoup(html_data, 'html.parser')
for tag in soup.find_all():
    tag.extract()

result = soup.get_text()
print(result)

이렇게 하면 BeautifulSoup을 사용하여 웹 페이지에서 모든 태그를 제거할 수 있습니다. Beautiful Soup의 다양한 기능을 활용하여 웹 스크래핑에 유용하게 사용할 수 있습니다.