[python] Beautiful Soup로 웹 페이지에서 특정 문자열 추출하기

파이썬은 웹 크롤링 작업을 수행할 때 많이 사용되는 언어입니다. Beautiful Soup라이브러리를 사용하면 HTML과 XML 문서에서 데이터를 추출하고 파싱하는 작업이 쉬워집니다.

이번 글에서는 Beautiful Soup를 사용하여 웹 페이지에서 특정 문자열을 추출하는 방법에 대해 알아보겠습니다.

1. Beautiful Soup 설치하기

Beautiful Soup를 사용하기 위해 먼저 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 Beautiful Soup를 설치하세요.

pip install beautifulsoup4

2. 웹 페이지에서 데이터 가져오기

Beautiful Soup를 사용하기 위해 먼저 웹 페이지에서 데이터를 가져와야 합니다. requests 라이브러리를 사용하여 웹 페이지에 접속하고 HTML 데이터를 얻을 수 있습니다.

import requests

url = "https://example.com"  # 원하는 웹 페이지의 URL 입력
response = requests.get(url)
html = response.text

위의 코드는 requests 라이브러리를 사용하여 원하는 웹 페이지로 GET 요청을 보내고, 그에 대한 응답을 받아옵니다. response.text를 통해 웹 페이지의 HTML 데이터를 가져올 수 있습니다.

3. 웹 페이지에서 문자열 추출하기

이제 Beautiful Soup를 사용하여 웹 페이지에서 원하는 문자열을 추출해봅시다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
target_string = soup.find('div', class_='target-class').text

위의 코드는 Beautiful Soup를 사용하여 html 변수에 저장된 HTML 데이터를 파싱합니다. find 메서드를 사용하여 웹 페이지에서 특정한 요소를 찾고, 해당 요소의 텍스트를 추출하여 target_string 변수에 저장합니다.

위의 코드에서 find 메서드에는 찾고자 하는 요소의 태그 이름과 (필요한 경우) 클래스 이름을 지정할 수 있습니다.

4. 추출한 문자열 출력하기

이제 추출한 문자열을 출력하거나 원하는 작업을 수행할 수 있습니다.

print(target_string)
# 또는 원하는 작업 수행

위의 코드는 추출한 문자열을 출력합니다. 필요한 경우 다른 작업을 수행하기 위해 target_string을 활용할 수 있습니다.

결론

Beautiful Soup를 사용하면 웹 페이지에서 원하는 문자열을 쉽게 추출할 수 있습니다. 이를 통해 웹 크롤링과 데이터 분석 작업을 보다 효율적으로 수행할 수 있습니다.

더 많은 Beautiful Soup의 기능과 사용법은 공식 문서를 참고하세요.