[python] 파이썬 BeautifulSoup으로 폼 데이터 추출하기
웹 스크래핑을 하다보면 종종 폼 데이터를 추출해야 할 때가 있습니다. 이때 파이썬 라이브러리인 BeautifulSoup을 사용하면 쉽게 폼 데이터를 추출할 수 있습니다. 이번 포스트에서는 BeautifulSoup을 이용하여 웹 페이지에서 폼 데이터를 추출하는 방법을 알아보겠습니다.
1. BeautifulSoup 설치하기
먼저, BeautifulSoup을 설치해야 합니다. 아래 명령어를 사용하여 설치할 수 있습니다.
pip install beautifulsoup4
2. 웹 페이지의 폼 데이터 확인하기
폼 데이터를 추출하기 전에 먼저 웹 페이지의 폼 데이터를 확인해야 합니다. 웹 브라우저의 개발자 도구를 사용하거나, HTML 코드를 확인하여 폼 데이터의 속성과 값을 파악할 수 있습니다.
3. BeautifulSoup으로 폼 데이터 추출하기
from bs4 import BeautifulSoup
# HTML 코드를 BeautifulSoup 객체로 변환
soup = BeautifulSoup(html, 'html.parser')
# 폼 데이터 추출하기
form = soup.find('form') # 폼 태그 찾기
inputs = form.find_all('input') # 입력 필드 찾기
for input in inputs:
name = input.get('name') # 입력 필드의 name 속성 가져오기
value = input.get('value') # 입력 필드의 기본 값 가져오기
print(name, value)
위 코드에서 html
은 웹 페이지의 HTML 코드입니다. BeautifulSoup
객체를 생성한 후, find
메서드를 사용하여 폼 태그를 찾고, find_all
메서드를 사용하여 모든 입력 필드를 찾습니다. 그리고 각 입력 필드에서 get
메서드를 사용하여 name
속성과 value
속성 값을 가져옵니다.
4. 실행 결과 확인하기
위 코드를 실행하면 웹 페이지에서 폼 데이터를 추출할 수 있습니다. 이때 name
과 value
값이 출력됩니다.
5. 참고 자료
위에서 소개한 방법을 사용하여 파이썬 BeautifulSoup을 이용하여 웹 페이지에서 폼 데이터를 추출하는 방법을 알아보았습니다. BeautifulSoup은 웹 스크래핑에 많은 도움을 주는 라이브러리이므로, 다양한 웹 페이지에서 폼 데이터 추출에 유용하게 사용할 수 있습니다.