[python] Beautiful Soup로 웹 페이지의 모든 텍스트 추출하기
Beautiful Soup은 파이썬 라이브러리로, 웹 스크래핑에 사용되는 강력한 도구입니다. Beautiful Soup을 사용하면 HTML 문서에서 데이터를 추출하고 조작하기 쉬워집니다. 이번 포스트에서는 Beautiful Soup을 사용하여 웹 페이지의 모든 텍스트를 추출하는 방법에 대해 알아보겠습니다.
필요한 라이브러리 설치하기
Beautiful Soup을 사용하기 위해 우선 해당 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.
pip install beautifulsoup4
웹 페이지에서 텍스트 추출하기
Beautiful Soup을 이용하여 웹 페이지의 텍스트를 추출하기 위해서는 먼저 requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져와야 합니다. 다음과 같은 코드를 작성해 보겠습니다.
import requests
from bs4 import BeautifulSoup
# 웹 페이지의 URL 입력
url = "http://example.com"
# 웹 페이지의 HTML 가져오기
response = requests.get(url)
html = response.text
# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, "html.parser")
# 텍스트 추출
text = soup.get_text()
# 결과 출력
print(text)
위의 코드에서 url
변수에는 가져올 웹 페이지의 URL을 입력하면 됩니다. requests.get()
함수를 사용하여 웹 페이지의 HTML을 가져온 후, BeautifulSoup
객체를 생성합니다. 이후 get_text()
메소드를 호출하여 웹 페이지의 모든 텍스트를 추출합니다.
출력 결과 확인하기
위의 코드를 실행하면 웹 페이지의 모든 텍스트가 출력됩니다. 이를 파일에 저장하거나 다른 방식으로 사용할 수도 있습니다.
결론
Beautiful Soup을 사용하면 웹 페이지에서 데이터를 추출하는 작업을 간단하고 효율적으로 처리할 수 있습니다. 웹 스크래핑 작업에 이 도구를 활용하면 다양한 데이터를 수집하고 분석하는데 도움이 될 것입니다.
참고 자료
- Beautiful Soup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- Requests 라이브러리 공식 문서: https://requests.readthedocs.io/en/latest/