[python] 파이썬 BeautifulSoup으로 웹 사이트 언어 감지

웹 크롤링을 할 때, 웹 사이트가 어떤 언어로 작성되었는지 알아내는 것은 중요합니다. 이를 통해 데이터 추출 및 처리 방식을 조정할 수 있으며, 사용자에게 적합한 언어로 결과를 제공할 수 있습니다. 이번에는 파이썬의 BeautifulSoup 라이브러리를 사용하여 웹 사이트의 언어를 감지하는 방법에 대해 알아보겠습니다.

BeautifulSoup 라이브러리 설치

우선 BeautifulSoup 라이브러리를 설치해야 합니다. 아래 명령어를 터미널에 입력하여 설치해주세요.

pip install beautifulsoup4

웹 사이트 언어 감지하기

다음은 BeautifulSoup 라이브러리를 사용하여 웹 사이트의 언어를 얻는 예제 코드입니다.

import requests
from bs4 import BeautifulSoup
from langdetect import detect

# 웹 사이트 주소를 입력합니다.
url = "https://example.com"

# 웹 사이트의 HTML 소스코드를 가져옵니다.
response = requests.get(url)
html = response.text

# BeautifulSoup을 사용하여 HTML 파싱합니다.
soup = BeautifulSoup(html, "html.parser")

# 웹 사이트에서 텍스트만 추출합니다.
text = soup.get_text()

# 추출한 텍스트의 언어를 감지합니다.
language = detect(text)

# 감지된 언어를 출력합니다.
print("웹 사이트의 언어:", language)

위 코드에서는 requests 라이브러리를 사용하여 웹 사이트의 HTML 소스코드를 가져옵니다. 그리고 BeautifulSoup을 사용하여 HTML을 파싱한 후, get_text()를 사용하여 텍스트만 추출합니다. 이후 detect() 함수를 사용하여 추출한 텍스트의 언어를 감지합니다. 최종적으로 감지된 언어를 출력합니다.

참고 자료