[python] Beautiful Soup로 웹 페이지에서 특정 폼 요소 값 삭제하기

웹 스크래핑을 하다보면 종종 특정 웹 페이지에서 폼(form) 요소의 값을 삭제해야 할 때가 있습니다. 이 때 Python의 Beautiful Soup 라이브러리를 사용하면 간편하게 요소를 선택하고 삭제할 수 있습니다. 본 글에서는 Beautiful Soup를 사용하여 웹 페이지에서 특정 폼 요소 값을 삭제하는 방법을 소개합니다.

Beautiful Soup란?

Beautiful Soup는 웹 스크래핑 작업을 위해 사용되는 Python 라이브러리입니다. 이 라이브러리는 HTML, XML 등의 마크업 언어를 파싱하고 필요한 정보를 추출하는 기능을 제공합니다. Beautiful Soup는 간단한 구문 분석 방식을 사용하며, 직관적이고 쉽게 사용할 수 있습니다.

설치

Beautiful Soup를 설치하기 위해서는 Python의 패키지 관리자 pip를 사용할 수 있습니다. 아래 명령을 사용하여 Beautiful Soup를 설치하세요.

pip install beautifulsoup4

웹 페이지에서 특정 폼 요소 값 삭제하기

  1. 필요한 라이브러리를 import 합니다.
from bs4 import BeautifulSoup
import requests
  1. 웹 페이지의 HTML을 가져옵니다.
url = "https://example.com/login"
response = requests.get(url)
html = response.text
  1. Beautiful Soup를 사용하여 HTML을 파싱합니다.
soup = BeautifulSoup(html, 'html.parser')
  1. 폼 요소를 선택하고 삭제합니다.
form = soup.find('form')
form.find('input', {'name': 'username'}).decompose()

위 코드에서는 웹 페이지에서 username이라는 이름을 가진 input 요소 값을 삭제하는 예시입니다. 필요에 따라 폼 요소를 선택하고 원하는 값들을 삭제하면 됩니다.

  1. 수정된 HTML을 출력합니다.
print(soup.prettify())
  1. 수정된 HTML을 파일로 저장합니다.
with open('modified.html', 'w') as file:
    file.write(str(soup))

위 코드에서는 수정된 HTML을 modified.html 파일로 저장하는 예시입니다. 파일 경로와 이름을 필요에 맞게 수정하세요.

마무리

이제 Beautiful Soup를 사용하여 웹 페이지에서 원하는 폼 요소 값을 삭제하는 방법을 알아보았습니다. Beautiful Soup는 강력한 웹 스크래핑 라이브러리이므로 다양한 작업에 유용하게 사용할 수 있습니다.

더 자세한 내용은 Beautiful Soup 공식 문서를 참조하세요.