[python] Beautiful Soup로 웹 페이지의 모든 폼 필드 추출하기

30 Nov 2023

python

웹 스크래핑은 웹 페이지에서 데이터를 추출하는 강력한 도구입니다. Beautiful Soup는 웹 스크래핑을 위한 인기있는 파이썬 라이브러리입니다. 이번 포스트에서는 Beautiful Soup를 사용하여 웹 페이지의 모든 폼 필드를 추출하는 방법을 알아보겠습니다.

필요한 패키지 설치하기

먼저, Beautiful Soup를 사용하기 위해 Python 패키지 매니저를 사용하여 설치해야 합니다. 아래의 명령을 실행하여 Beautiful Soup를 설치합니다:

pip install beautifulsoup4

웹 페이지 가져오기

먼저, 웹 페이지의 HTML 소스를 가져와야 합니다. 이를 위해 requests 라이브러리를 사용하여 웹 페이지에 GET 요청을 보냅니다. 아래의 예제 코드를 참고하세요:

import requests

url = 'https://www.example.com'
response = requests.get(url)
html = response.text

Beautiful Soup로 폼 필드 추출하기

이제 BeautifulSoup 객체를 생성하고, HTML 소스를 파싱하여 폼 필드를 추출할 수 있습니다. 아래의 예제 코드를 확인하세요:

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

forms = soup.find_all('form')
for form in forms:
    inputs = form.find_all('input')
    for input_tag in inputs:
        if input_tag.get('name'):
            field_name = input_tag.get('name')
            print(field_name)

위의 코드는 BeautifulSoup를 사용하여 HTML 소스를 파싱한 후, form 태그를 찾고 input 태그를 찾아서 name 속성을 가진 필드를 출력합니다.

결과 확인하기

위의 코드를 실행한 후, 웹 페이지의 모든 폼 필드 이름이 출력될 것입니다. 필요에 따라 이 코드를 수정하여 원하는 대로 사용할 수 있습니다.

결론

Beautiful Soup를 사용하면 웹 페이지에서 원하는 데이터를 추출하기 위해 손쉽게 HTML을 파싱할 수 있습니다. 이번 예제에서는 Beautiful Soup를 사용하여 웹 페이지의 모든 폼 필드를 추출하는 방법을 알아보았습니다. 이를 통해 웹 스크래핑 작업을 더욱 효율적으로 수행할 수 있습니다.

참고 문서

Beautiful Soup 공식 문서