[python] Beautiful Soup로 웹 페이지의 모든 테이블 데이터 삭제하기

30 Nov 2023

python

웹 스크래핑을 수행할 때 종종 웹 페이지에서 테이블 데이터를 제거해야하는 경우가 있습니다. 특히 Beautiful Soup와 같은 파이썬 라이브러리를 사용하여 웹 페이지를 파싱할 때는 간단하게 테이블 데이터를 삭제할 수 있습니다. 이번 포스트에서는 Beautiful Soup를 사용하여 웹 페이지의 모든 테이블 데이터를 삭제하는 방법에 대해 알아보겠습니다.

Beautiful Soup 설치하기

Beautiful Soup를 사용하기 위해 먼저 파이썬 환경에 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

또는 requirements.txt 파일을 사용하여 다음과 같이 한 번에 설치할 수도 있습니다.

beautifulsoup4

웹 페이지에서 테이블 데이터 삭제하기

웹 페이지에서 테이블 데이터를 삭제하기 위해서는 다음의 단계를 따라야 합니다.

웹 페이지의 HTML 코드를 가져옵니다.
Beautiful Soup를 사용하여 HTML 코드를 파싱합니다.
파싱된 HTML에서 모든 테이블 태그를 검색합니다.
검색된 테이블 태그를 삭제합니다.

아래는 Beautiful Soup를 사용하여 웹 페이지의 모든 테이블 데이터를 삭제하는 예제 코드입니다.

from bs4 import BeautifulSoup
import requests

# 웹 페이지의 URL
url = 'https://example.com'

# 웹 페이지의 HTML 코드 가져오기
response = requests.get(url)
html = response.text

# Beautiful Soup로 HTML 코드 파싱하기
soup = BeautifulSoup(html, 'html.parser')

# 모든 테이블 태그 검색하여 삭제하기
tables = soup.find_all('table')
for table in tables:
    table.decompose()

# 테이블 데이터가 삭제된 HTML 코드 출력하기
print(soup.prettify())

위의 예제 코드에서는 requests 모듈을 사용하여 웹 페이지의 HTML 코드를 가져오고, BeautifulSoup를 사용하여 HTML 코드를 파싱합니다. 그리고 find_all 함수를 사용하여 모든 테이블 태그를 검색한 후, decompose 함수를 호출하여 테이블을 삭제합니다. 마지막으로 prettify 함수를 사용하여 재구성된 HTML 코드를 출력합니다.

위의 코드를 실행하면 웹 페이지의 테이블 데이터가 모두 삭제된 HTML 코드를 얻을 수 있습니다.

결론

Beautiful Soup를 사용하면 웹 페이지에서 테이블 데이터를 간단하게 삭제할 수 있습니다. 위의 예제 코드를 참고하여 자신의 웹 스크래핑 프로젝트에 적용해보세요.