[python] Beautiful Soup로 웹 페이지에서 특정 폼 요소 텍스트 추출하기

30 Nov 2023

python

Beautiful Soup는 파이썬의 웹 스크래핑 라이브러리로, HTML 및 XML 문서를 파싱하여 원하는 정보를 추출하는데 사용됩니다. 이번 포스트에서는 Beautiful Soup를 사용하여 웹 페이지에서 특정 폼 요소의 텍스트를 추출하는 방법을 알아보겠습니다.

1. Beautiful Soup 설치하기

먼저 Beautiful Soup를 설치해야 합니다. 다음 명령어를 사용하여 Beautiful Soup를 설치할 수 있습니다:

pip install beautifulsoup4

2. 웹 페이지에서 폼 요소의 HTML 구조 확인하기

추출하려는 폼 요소의 텍스트를 알기 위해 먼저 해당 웹 페이지의 HTML 구조를 확인해야 합니다. 웹 브라우저에서 원하는 페이지를 열고 개발자 도구를 사용하여 해당 폼 요소의 HTML 구조를 확인할 수 있습니다. 예를 들어, Chrome 브라우저에서는 오른쪽 마우스 버튼으로 클릭하여 “검사”를 선택하거나, 단축키로 Ctrl + Shift + I를 누르면 개발자 도구가 열립니다.

3. Beautiful Soup를 사용하여 텍스트 추출하기

Beautiful Soup를 사용하여 HTML 문서를 파싱하고, 특정 폼 요소의 텍스트를 추출합니다. 아래는 예제 코드입니다:

from bs4 import BeautifulSoup
import requests

# 웹 페이지를 다운로드
url = 'https://example.com'
response = requests.get(url)

# BeautifulSoup를 사용하여 HTML 문서 파싱
soup = BeautifulSoup(response.text, 'html.parser')

# 폼 요소의 HTML 구조를 확인 후 텍스트 추출
form_element = soup.select('form input[name="my_input_field"]')[0]
extracted_text = form_element.get('value')

print(extracted_text)

위 코드에서는 requests 라이브러리를 사용하여 웹 페이지를 다운로드하고, BeautifulSoup를 사용하여 HTML 문서를 파싱합니다. 그리고 select 메소드를 사용하여 특정 폼 요소를 선택합니다. 이때 CSS 선택자를 사용하여 원하는 요소를 찾을 수 있습니다. 마지막으로 get 메소드를 사용하여 요소의 텍스트를 추출합니다.

위 코드에서는 my_input_field라는 이름을 가진 폼 요소의 텍스트를 추출하는 예제입니다. 추출하고자 하는 폼 요소의 이름이나 다른 속성에 따라 코드를 적절히 수정하여 사용하시면 됩니다.

4. 결론

Beautiful Soup를 사용하면 웹 페이지에서 원하는 정보를 쉽게 추출할 수 있습니다. 이번 포스트에서는 Beautiful Soup를 사용하여 웹 페이지에서 특정 폼 요소의 텍스트를 추출하는 방법을 알아보았습니다. Beautiful Soup를 활용하여 웹 스크래핑 작업을 보다 효율적으로 수행할 수 있습니다.