[python] Beautiful Soup로 웹 페이지에서 특정 문자열 추출하기

30 Nov 2023

파이썬은 웹 크롤링 작업을 수행할 때 많이 사용되는 언어입니다. Beautiful Soup라이브러리를 사용하면 HTML과 XML 문서에서 데이터를 추출하고 파싱하는 작업이 쉬워집니다.

이번 글에서는 Beautiful Soup를 사용하여 웹 페이지에서 특정 문자열을 추출하는 방법에 대해 알아보겠습니다.

1. Beautiful Soup 설치하기

Beautiful Soup를 사용하기 위해 먼저 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 Beautiful Soup를 설치하세요.

pip install beautifulsoup4

Beautiful Soup를 사용하기 위해 먼저 웹 페이지에서 데이터를 가져와야 합니다. requests 라이브러리를 사용하여 웹 페이지에 접속하고 HTML 데이터를 얻을 수 있습니다.

import requests

url = "https://example.com"  # 원하는 웹 페이지의 URL 입력
response = requests.get(url)
html = response.text

위의 코드는 requests 라이브러리를 사용하여 원하는 웹 페이지로 GET 요청을 보내고, 그에 대한 응답을 받아옵니다. response.text를 통해 웹 페이지의 HTML 데이터를 가져올 수 있습니다.

이제 Beautiful Soup를 사용하여 웹 페이지에서 원하는 문자열을 추출해봅시다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
target_string = soup.find('div', class_='target-class').text

위의 코드는 Beautiful Soup를 사용하여 html 변수에 저장된 HTML 데이터를 파싱합니다. find 메서드를 사용하여 웹 페이지에서 특정한 요소를 찾고, 해당 요소의 텍스트를 추출하여 target_string 변수에 저장합니다.

위의 코드에서 find 메서드에는 찾고자 하는 요소의 태그 이름과 (필요한 경우) 클래스 이름을 지정할 수 있습니다.

이제 추출한 문자열을 출력하거나 원하는 작업을 수행할 수 있습니다.

print(target_string)
# 또는 원하는 작업 수행

위의 코드는 추출한 문자열을 출력합니다. 필요한 경우 다른 작업을 수행하기 위해 target_string을 활용할 수 있습니다.

Beautiful Soup를 사용하면 웹 페이지에서 원하는 문자열을 쉽게 추출할 수 있습니다. 이를 통해 웹 크롤링과 데이터 분석 작업을 보다 효율적으로 수행할 수 있습니다.

더 많은 Beautiful Soup의 기능과 사용법은 공식 문서를 참고하세요.