[python] Beautiful Soup로 웹 페이지에서 특정 폼 추출하기

30 Nov 2023

python

웹 페이지에서 특정 폼을 추출하는 것은 웹 스크래핑 작업 중 일반적인 작업입니다. 이를 위해 Python의 Beautiful Soup 라이브러리를 사용할 수 있습니다. Beautiful Soup은 HTML 및 XML 문서의 구문 분석을 단순화하여 원하는 태그를 추출할 수 있게 도와줍니다.

Beautiful Soup 설치

Beautiful Soup를 사용하기 위해 먼저 해당 라이브러리를 설치해야 합니다. 아래 명령을 사용하여 pip를 통해 설치할 수 있습니다.

pip install beautifulsoup4

웹 페이지에서 특정 폼 추출하기

다음은 Beautiful Soup를 사용하여 웹 페이지에서 특정 폼을 추출하는 예제 코드입니다.

from bs4 import BeautifulSoup
import requests

# 웹 페이지 URL
url = "https://www.example.com"

# 웹 페이지 요청
response = requests.get(url)

# HTML 구문 분석
soup = BeautifulSoup(response.text, 'html.parser')

# 폼 태그 추출
form = soup.find('form')

# 폼 데이터 출력
print(form)

위 예제에서는 requests 모듈을 사용하여 웹 페이지에 GET 요청을 보내고, BeautifulSoup 객체를 생성합니다. 그 후, find 메서드를 사용하여 해당 웹 페이지에서 첫 번째로 발견되는 form 태그를 추출합니다. 추출한 form 객체를 출력하는 것으로 예제를 마무리합니다.

결론

이러한 방식으로 Beautiful Soup를 사용하여 웹 페이지에서 특정 폼을 추출할 수 있습니다. Beautiful Soup를 사용하면 웹 스크래핑 작업을 더욱 쉽고 간편하게 처리할 수 있습니다.

참고 자료

Beautiful Soup 공식 문서