[python] gensim을 활용한 토픽 모델링 시각화 방법 소개

19 Dec 2023

python

Gensim은 Python으로 작성된 자연어 처리를 위한 open-source 라이브러리로, 토픽 모델링에 사용됩니다. 특히, Gensim을 사용하여 생성한 토픽 모델의 결과를 시각화하는 방법을 알아보겠습니다.

1. 토픽 모델링과 Gensim

토픽 모델링은 문서 집합에서 주제를 발견하는 자연어 처리 기술입니다. Gensim은 효율적인 토픽 모델링을 위한 다양한 도구와 알고리즘을 제공합니다.

2. 시각화

토픽 모델링 결과를 보다 명확하게 이해하기 위해 시각화가 필요합니다. Gensim에는 토픽 모델링 결과를 시각화할 수 있는 기능이 내장되어 있지 않지만, 다른 라이브러리와 연계하여 시각화를 수행할 수 있습니다.

3. 토픽 모델링 시각화 방법

토픽 모델링 결과를 시각화하기 위해서는 다음과 같은 단계를 따릅니다.

3.1 토픽 모델링 수행

우선 Gensim을 사용하여 토픽 모델링을 수행합니다. 이를 위해서는 말뭉치(corpus)와 딕셔너리(dictionary)가 필요합니다.

from gensim import corpora, models

# 말뭉치 생성
corpus = [dictionary.doc2bow(text) for text in texts]

# LDA 모델 학습
lda_model = models.LdaModel(corpus, num_topics=5, id2word=dictionary, passes=15)

3.2 토픽 시각화 라이브러리 활용

토픽 모델링 결과를 시각화하기 위해 pyLDAvis와 같은 라이브러리를 활용할 수 있습니다.

import pyLDAvis.gensim

# 시각화
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(lda_model, corpus, dictionary)

3.3 시각화 결과 확인

시각화를 위해 준비된 vis 객체는 Jupyter Notebook 등에서 확인할 수 있습니다. 시각화 결과를 통해 각 토픽 간의 상대적인 중요도 및 단어 분포 등을 쉽게 파악할 수 있습니다.

4. 참고 자료

Gensim 문서: https://radimrehurek.com/gensim/
pyLDAvis 문서: https://github.com/bmabey/pyLDAvis

토픽 모델링 결과를 시각화하여 보다 쉽게 이해하고 해석할 수 있도록 Gensim과 다른 라이브러리를 연계하여 활용하는 것이 유용합니다.