[python] 파이썬 BeautifulSoup으로 웹 사이트 언어 감지
웹 크롤링을 할 때, 웹 사이트가 어떤 언어로 작성되었는지 알아내는 것은 중요합니다. 이를 통해 데이터 추출 및 처리 방식을 조정할 수 있으며, 사용자에게 적합한 언어로 결과를 제공할 수 있습니다. 이번에는 파이썬의 BeautifulSoup 라이브러리를 사용하여 웹 사이트의 언어를 감지하는 방법에 대해 알아보겠습니다.
BeautifulSoup 라이브러리 설치
우선 BeautifulSoup 라이브러리를 설치해야 합니다. 아래 명령어를 터미널에 입력하여 설치해주세요.
pip install beautifulsoup4
웹 사이트 언어 감지하기
다음은 BeautifulSoup 라이브러리를 사용하여 웹 사이트의 언어를 얻는 예제 코드입니다.
import requests
from bs4 import BeautifulSoup
from langdetect import detect
# 웹 사이트 주소를 입력합니다.
url = "https://example.com"
# 웹 사이트의 HTML 소스코드를 가져옵니다.
response = requests.get(url)
html = response.text
# BeautifulSoup을 사용하여 HTML 파싱합니다.
soup = BeautifulSoup(html, "html.parser")
# 웹 사이트에서 텍스트만 추출합니다.
text = soup.get_text()
# 추출한 텍스트의 언어를 감지합니다.
language = detect(text)
# 감지된 언어를 출력합니다.
print("웹 사이트의 언어:", language)
위 코드에서는 requests
라이브러리를 사용하여 웹 사이트의 HTML 소스코드를 가져옵니다. 그리고 BeautifulSoup을 사용하여 HTML을 파싱한 후, get_text()
를 사용하여 텍스트만 추출합니다. 이후 detect()
함수를 사용하여 추출한 텍스트의 언어를 감지합니다. 최종적으로 감지된 언어를 출력합니다.