[python] 토픽 모델링을 위한 파이썬 gensim 라이브러리 활용 방법

19 Dec 2023

python

이번 글에서는 토픽 모델링을 수행하기 위해 파이썬의 Gensim 라이브러리를 활용하는 방법에 대해 알아보겠습니다.

1. Gensim 라이브러리란?

Gensim은 토픽 모델링과 자연어 처리를 위한 라이브러리로, 파이썬에서 간단하게 사용할 수 있습니다. 특히, 대량의 텍스트 데이터를 대상으로 토픽 모델링을 수행할 때 유용합니다.

2. Gensim 설치

Gensim을 설치하려면 다음 명령을 사용합니다:

pip install gensim

3. 토픽 모델링 수행

Gensim을 사용하여 텍스트 데이터에서 토픽 모델링을 수행하는 방법은 다음과 같습니다.

from gensim import corpora, models
import gensim

# 데이터 전처리
documents = ["텍스트 데이터 1", "텍스트 데이터 2", ...]  # 리스트 형태로 텍스트 데이터를 가지고 있는 변수

texts = [[word for word in document.lower().split()] for document in documents]

# 단어에 ID 부여
dictionary = corpora.Dictionary(texts)

# 토픽 모델 생성
corpus = [dictionary.doc2bow(text) for text in texts]
lda_model = gensim.models.ldamodel.LdaModel(corpus, num_topics=10, id2word=dictionary, passes=15)

# 토픽 확인
topics = lda_model.print_topics(num_words=5)
print(topics)

위의 코드에서는 Gensim을 사용하여 LDA(Latent Dirichlet Allocation)를 통해 토픽 모델을 생성하는 과정을 보여줍니다.

4. 마치며

이렇게 파이썬의 Gensim 라이브러리를 사용하여 토픽 모델링을 수행하는 방법에 대해 알아보았습니다. Gensim은 다양한 텍스트 분석 작업에 유용하게 활용될 수 있는 라이브러리입니다.

더 많은 정보와 기능에 대해서는 Gensim 공식 문서를 참고하시기 바랍니다.

5. 참고 자료

Gensim 공식 문서: https://radimrehurek.com/gensim/

이상으로 Gensim 라이브러리를 활용한 토픽 모델링에 대해 알아보았습니다. 감사합니다.