[python] 파이썬 BeautifulSoup으로 웹 사이트 키워드 분석

04 Dec 2023

python

지금은 인터넷 시대이며, 많은 정보가 웹 사이트에 게시되어 있습니다. 이러한 정보 중에서 우리가 원하는 정보를 찾기 위해서는 특정 키워드로 검색을 해야 합니다. 이때 웹 사이트에서 키워드를 추출하여 분석하는 것은 굉장히 유용한 방법입니다.

파이썬 프로그래밍 언어는 웹 크롤링과 데이터 분석에 매우 적합한 도구입니다. 이 중에서도 BeautifulSoup라는 라이브러리는 웹 문서를 구문 분석하고 데이터를 추출하기 위해 자주 사용됩니다.

BeautifulSoup 라이브러리 설치

먼저 BeautifulSoup 라이브러리를 설치해야 합니다. 파이썬 패키지 관리자인 pip을 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

웹 사이트에서 키워드 추출하기

이제 BeautifulSoup을 사용하여 웹 사이트에서 키워드를 추출하는 방법에 대해 알아보겠습니다. 아래의 예제 코드는 예시로 제공되는 웹 사이트에서 키워드를 추출하는 예제입니다.

import requests
from bs4 import BeautifulSoup

# 웹 사이트 주소 지정
url = "https://example.com"

# 웹 페이지 요청
response = requests.get(url)

# 웹 페이지 구문 분석
soup = BeautifulSoup(response.content, "html.parser")

# 키워드 추출
keywords = []
for meta in soup.find_all("meta"):
    if meta.get("name") == "keywords":
        keywords = meta.get("content").split(",")
        break

# 추출된 키워드 출력
print(keywords)

위의 코드에서는 requests 라이브러리를 사용하여 웹 페이지를 요청하고, BeautifulSoup을 사용하여 웹 페이지를 구문 분석합니다. 구문 분석된 결과를 통해 <meta> 태그 중에서 name 속성이 “keywords”인 태그를 찾아 키워드를 추출합니다. 추출된 키워드는 쉼표(,)로 구분된 문자열 형태로 출력됩니다.

결론

파이썬 BeautifulSoup 라이브러리를 사용하면 웹 사이트에서 키워드를 추출하여 분석하는 것이 가능합니다. 이를 통해 웹 사이트 점검, SEO 분석 등 다양한 분야에서 활용할 수 있습니다.