[python] Bokeh를 사용하여 워드 클라우드 생성하기

Bokeh는 파이썬 기반의 데이터 시각화 도구 중 하나로, 웹 기반의 인터랙티브한 시각화를 제공합니다. 이번 포스트에서는 Bokeh를 사용하여 워드 클라우드를 생성하는 방법에 대해 알아보겠습니다.

필요한 패키지 설치하기

먼저, 아래의 명령을 사용하여 필요한 패키지를 설치합니다.

pip install bokeh
pip install wordcloud
pip install pandas

데이터 준비하기

워드 클라우드를 생성하기 위해서는 텍스트 데이터가 필요합니다. 예를 들어, 뉴스 기사, 소설, 혹은 트위터 텍스트 데이터 등을 사용할 수 있습니다. 이 예제에서는 pandas 패키지를 사용하여 CSV 파일을 읽어옵니다.

import pandas as pd

# 데이터 로드
data = pd.read_csv('data.csv')

# 텍스트 데이터 추출
text_data = data['text'].values.tolist()

워드 클라우드 생성하기

Bokeh와 wordcloud 패키지를 사용하여 워드 클라우드를 생성할 수 있습니다. 아래의 예제 코드는 워드 클라우드를 생성하고 그 결과를 Bokeh를 통해 시각화하는 코드입니다.

from bokeh.plotting import figure, show
from bokeh.io import output_notebook
from bokeh.models import LabelSet
from wordcloud import WordCloud

# 워드 클라우드 생성
wordcloud = WordCloud(background_color='white', width=800, height=400).generate(' '.join(text_data))

# Bokeh 플롯 생성
p = figure(x_range=(0, 1), y_range=(0, 1))
p.image(image=[wordcloud.to_image()], x=0, y=0, dw=1, dh=1)

# 플롯 출력
output_notebook()
show(p)

결과 확인하기

위의 코드를 실행하면 Bokeh를 통해 워드 클라우드가 시각화됩니다. 워드 클라우드는 단어의 빈도에 따라 크기와 색상이 결정되며, 가장 빈도가 높은 단어일수록 크고 강조됩니다.

참고 자료