[python] Beautiful Soup로 웹 페이지에서 텍스트 추출하기

웹 스크래핑은 웹 페이지에서 데이터를 추출하는 프로세스입니다. Python에서는 Beautiful Soup 라이브러리를 사용하여 웹 스크래핑 작업을 쉽게 수행할 수 있습니다. 이 블로그 포스트에서는 Beautiful Soup를 사용하여 웹 페이지에서 텍스트 데이터를 추출하는 방법에 대해 알아보겠습니다.

Beautiful Soup 설치하기

Beautiful Soup를 사용하기 위해 우선 해당 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다:

pip install beautifulsoup4

웹 페이지에서 텍스트 추출하기

아래는 Beautiful Soup를 사용하여 웹 페이지에서 텍스트를 추출하는 간단한 예제입니다. 예제로 www.example.com 웹 페이지를 사용하겠습니다.

from bs4 import BeautifulSoup
import requests

# 웹 페이지 요청
url = "http://www.example.com"
response = requests.get(url)

# BeautifulSoup으로 파싱
soup = BeautifulSoup(response.text, "html.parser")

# 텍스트 추출
text = soup.get_text()

# 결과 출력
print(text)

위의 예제 코드에서는 먼저 requests 모듈을 사용하여 웹 페이지를 가져오고, BeautifulSoup을 사용하여 HTML을 파싱합니다. 그런 다음 get_text() 메서드를 사용하여 파싱된 페이지에서 텍스트를 추출합니다.

결과 확인하기

위의 예제 코드를 실행하면 해당 웹 페이지의 텍스트를 콘솔에 출력합니다.

추출된 텍스트를 원하는대로 가공하거나 다른 작업에 활용할 수 있습니다.

마무리

이번 블로그 포스트에서는 Beautiful Soup를 사용하여 웹 페이지에서 텍스트 데이터를 추출하는 방법에 대해 알아보았습니다. Beautiful Soup는 강력한 도구로 웹 스크래핑 작업을 더욱 쉽게 만들어 줍니다. 더 많은 기능과 사용 예제는 Beautiful Soup 공식 문서를 참조하시기 바랍니다.