[python] 파이썬 gensim을 사용한 문서 요약 성능 향상을 위한 트릭 소개

19 Dec 2023

python

Gensim은 토픽 모델링 및 자연어 처리를 위한 파이썬 라이브러리로, 문서 요약 작업에 유용하게 활용될 수 있습니다. 하지만 대규모 문서 집합을 요약하는 과정에서 Gensim의 성능을 향상시키기 위해 몇 가지 트릭이 있습니다.

이 블로그에서는 Gensim을 사용하여 문서 요약 성능을 최적화하기 위한 다양한 방법을 살펴보겠습니다.

Stopwords는 문서에서 제외하여 처리 성능을 향상시키는 중요한 요소입니다. Gensim의 summarization 모듈을 사용할 때, stopwords를 명시적으로 처리하는 것이 좋습니다. 또한 직접적인 stopwords 제거가 아닌 TF-IDF 기반의 가중치를 활용하여 stopwords의 영향을 줄일 수 있습니다.

from gensim.summarization import keywords
from gensim.parsing.preprocessing import STOPWORDS

custom_stopwords = set(STOPWORDS)
custom_stopwords.add('custom_stopword1')
custom_stopwords.add('custom_stopword2')

# 키워드 추출 시 stopwords 적용
result = keywords(text, split=True, words=10, lemmatize=True, scores=True, stopwords=custom_stopwords)

불필요한 토픽 제거

시스템의 의사결정을 위한 과정을 단순화하기 위해, 모델에서 불필요한 토픽을 제거하는 것이 중요합니다. 너무 일반적이거나 특이한 토픽들은 제거함으로써 요약의 품질을 향상시킬 수 있습니다.

from gensim.models import LdaModel

# 토픽 수
NUM_TOPICS = 5

# LDA 모델 생성
lda_model = LdaModel(corpus, num_topics=NUM_TOPICS, id2word=dictionary, passes=15)

# 불필요한 토픽 제거
topics_to_remove = [4]
lda_model = LdaModel.load('lda_model')
lda_model = LdaModel([x for i, x in enumerate(lda_model.get_topics()) if i not in topics_to_remove])

모델 파라미터 조정

Gensim 모델의 파라미터를 조정하여 성능을 향상시킬 수 있습니다. 주요 파라미터로는 num_topics, passes, alpha, beta 등이 있으며, 이러한 파라미터들을 조정하여 최적의 모델을 구성할 수 있습니다.

from gensim.models import LdaModel

# 최적의 파라미터 탐색
best_lda_model = LdaModel(corpus, num_topics=10, id2word=dictionary, passes=15, alpha='auto', per_word_topics=True)

이러한 트릭을 활용하여 Gensim을 사용한 문서 요약 성능을 향상시킬 수 있습니다. Gensim을 효과적으로 활용하여 효율적인 문서 요약 시스템을 구축하는 데 도움이 되길 바랍니다.

참고:

Gensim 문서: https://radimrehurek.com/gensim/
Gensim API 문서: https://radimrehurek.com/gensim/apiref.html

목차

Stopwords 처리

불필요한 토픽 제거

모델 파라미터 조정