[python] Beautiful Soup로 웹 페이지에서 특정 폼 요소 값 추출하기

30 Nov 2023

python

Beautiful Soup은 Python의 라이브러리로, 웹 스크래핑에 자주 사용됩니다. 이는 HTML과 XML 문서를 구문 분석하여 데이터 추출을 용이하게 해줍니다. 이번 블로그 포스트에서는 Beautiful Soup을 사용하여 웹 페이지에서 특정 폼 요소의 값을 추출하는 방법에 대해 알아보겠습니다.

필요한 라이브러리 설치하기

먼저, Beautiful Soup을 사용하기 위해 beautifulsoup4 라이브러리를 설치해야 합니다. 아래 명령을 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

웹 페이지에서 폼 요소 값 추출하기

먼저, requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져옵니다.

import requests

url = "http://example.com/login"
response = requests.get(url)
html = response.text

Beautiful Soup을 사용하여 HTML을 구문 분석합니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

원하는 폼 요소의 값을 추출합니다. 예를 들어, 아이디와 비밀번호를 입력하는 폼이 있다고 가정하고, 해당 필드의 값을 추출해봅시다.

username_field = soup.find('input', {'name': 'username'})
password_field = soup.find('input', {'name': 'password'})

username_value = username_field['value']
password_value = password_field['value']

print("Username value:", username_value)
print("Password value:", password_value)

위의 코드에서는 find 메서드를 사용하여 원하는 폼 요소를 찾고, 해당 요소의 value 속성을 추출합니다.

결론

이렇게 Beautiful Soup을 사용하여 웹 페이지에서 특정 폼 요소의 값을 추출할 수 있습니다. 이를 통해 웹 스크래핑 작업을 수행하거나 웹 페이지로부터 데이터를 수집하는 데 사용할 수 있습니다.

참고 자료

Beautiful Soup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
requests 라이브러리 공식 문서: https://docs.python-requests.org/en/latest/
Python 공식 문서: https://docs.python.org/