[python] Beautiful Soup로 웹 페이지의 모든 텍스트 추출하기

30 Nov 2023

python

Beautiful Soup은 파이썬 라이브러리로, 웹 스크래핑에 사용되는 강력한 도구입니다. Beautiful Soup을 사용하면 HTML 문서에서 데이터를 추출하고 조작하기 쉬워집니다. 이번 포스트에서는 Beautiful Soup을 사용하여 웹 페이지의 모든 텍스트를 추출하는 방법에 대해 알아보겠습니다.

필요한 라이브러리 설치하기

Beautiful Soup을 사용하기 위해 우선 해당 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

웹 페이지에서 텍스트 추출하기

Beautiful Soup을 이용하여 웹 페이지의 텍스트를 추출하기 위해서는 먼저 requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져와야 합니다. 다음과 같은 코드를 작성해 보겠습니다.

import requests
from bs4 import BeautifulSoup

# 웹 페이지의 URL 입력
url = "http://example.com"

# 웹 페이지의 HTML 가져오기
response = requests.get(url)
html = response.text

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, "html.parser")

# 텍스트 추출
text = soup.get_text()

# 결과 출력
print(text)

위의 코드에서 url 변수에는 가져올 웹 페이지의 URL을 입력하면 됩니다. requests.get() 함수를 사용하여 웹 페이지의 HTML을 가져온 후, BeautifulSoup 객체를 생성합니다. 이후 get_text() 메소드를 호출하여 웹 페이지의 모든 텍스트를 추출합니다.

출력 결과 확인하기

위의 코드를 실행하면 웹 페이지의 모든 텍스트가 출력됩니다. 이를 파일에 저장하거나 다른 방식으로 사용할 수도 있습니다.

결론

Beautiful Soup을 사용하면 웹 페이지에서 데이터를 추출하는 작업을 간단하고 효율적으로 처리할 수 있습니다. 웹 스크래핑 작업에 이 도구를 활용하면 다양한 데이터를 수집하고 분석하는데 도움이 될 것입니다.

참고 자료

Beautiful Soup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
Requests 라이브러리 공식 문서: https://requests.readthedocs.io/en/latest/