Gensim과 LDA를 활용하여 토픽 모델링의 성능 측정을 위한 토큰화 방법 실습하기

09 Nov 2023

gensim

토픽 모델링은 대량의 텍스트 데이터에서 주제를 추출하는 강력한 도구입니다. Gensim은 Python에서 자연어 처리 작업을 위한 라이브러리이며, LDA(Latent Dirichlet Allocation)는 Gensim의 토픽 모델링 알고리즘 중 하나입니다. 이번 실습에서는 Gensim과 LDA를 활용하여 토픽 모델링의 성능을 측정하기 위한 토큰화 방법을 알아보겠습니다.

1. 텍스트 데이터 로드

먼저, 토픽 모델링을 위한 텍스트 데이터를 로드해야 합니다. 예를 들어, 영화 리뷰 데이터셋을 사용할 수 있습니다. Gensim은 다양한 데이터 포맷을 지원하기 때문에 텍스트 파일로 저장된 데이터셋을 간편하게 로드할 수 있습니다.

import gensim

# 텍스트 파일 로드
data = gensim.corpora.TextCorpus('data.txt')

# 모델 학습을 위한 토큰화
data_tokenized = data.get_texts()

2. 토큰화 방법 설정

LDA 모델을 학습하기 전에 텍스트 데이터를 토큰화해야 합니다. 토큰화는 문장을 단어 또는 어절로 분할하는 작업을 의미합니다. Gensim은 다양한 토큰화 방법을 지원하며, 자체적인 토큰화 함수를 제공합니다. 이번 실습에서는 자체 함수를 사용하여 토큰화 방법을 설정하겠습니다.

# 토큰화 방법 설정
def tokenizer(text):
    tokens = text.lower().split()  # 소문자로 변환하고 공백 기준으로 분할
    return [token for token in tokens if token.isalnum()]  # 알파벳과 숫자로 이루어진 토큰만 반환

# 토큰화된 데이터 저장
data_tokenized = [tokenizer(text) for text in data_tokenized]

3. LDA 모델 학습 및 성능 측정

이제 토큰화된 데이터를 바탕으로 LDA 모델을 학습하고 성능을 측정할 수 있습니다. LDA 모델은 주어진 텍스트 데이터에서 파라미터인 토픽의 수를 결정해야 합니다. 이번 실습에서는 10개의 토픽으로 LDA 모델을 학습하고 성능을 측정하겠습니다.

# LDA 모델 학습
lda_model = gensim.models.LdaModel(data_tokenized, num_topics=10, id2word=gensim.corpora.Dictionary(data_tokenized))

# 토픽 모델링의 성능 측정
perplexity = lda_model.log_perplexity(data_tokenized)  # Perplexity 측정
coherence = gensim.models.CoherenceModel(model=lda_model, texts=data_tokenized).get_coherence()  # Coherence 측정

# 측정 결과 출력
print(f"Perplexity: {perplexity}")
print(f"Coherence: {coherence}")

마무리

이번 실습에서는 Gensim과 LDA를 활용하여 토픽 모델링의 성능 측정을 위한 토큰화 방법을 실습해보았습니다. 텍스트 데이터를 로드하고 토큰화한 후, LDA 모델을 학습하여 토픽 모델링의 성능을 측정하는 방법을 알아봤습니다. 이를 통해 텍스트 데이터의 토픽을 추출하고 분석하는데 활용할 수 있습니다.

References

Gensim documentation: https://radimrehurek.com/gensim/
LDA Model documentation: https://radimrehurek.com/gensim/models/ldamodel.html
Coherence Measure documentation: https://radimrehurek.com/gensim/models/coherencemodel.html

#NLP #TopicModeling