Gensim을 사용하여 문서 요약 모델 개발하기

09 Nov 2023

gensim

지금은 대용량의 텍스트 문서가 생성되고 분산되므로 이를 요약하는 기술의 필요성이 커지고 있습니다. Gensim은 Python에서 자연어 처리를 위해 사용되는 강력한 라이브러리 중 하나입니다. 이 라이브러리는 Word2Vec, Doc2Vec 등 다양한 텍스트 처리 알고리즘을 제공합니다.

이번 블로그에서는 Gensim을 사용하여 문서 요약 모델을 개발하는 과정에 대해 알아보겠습니다.

1. 데이터 준비

먼저 문서 요약 모델을 개발하기 위해 필요한 텍스트 데이터를 준비해야 합니다. 이 데이터는 문서 집합이나 웹 문서 등 어디에서든 가져올 수 있습니다.

import pandas as pd

# 텍스트 데이터 불러오기
data = pd.read_csv('text_data.csv')

# 필요한 컬럼 선택
texts = data['text'].tolist()

2. 텍스트 전처리

Gensim을 사용하여 문서 요약을 수행하기 전에 텍스트 데이터를 전처리해야 합니다. 전처리 단계에는 토큰화, 불용어 제거, 단어 정규화 등이 포함될 수 있습니다.

from gensim.utils import simple_preprocess
from gensim.parsing.preprocessing import remove_stopwords
from gensim.models.phrases import Phrases, Phraser
from gensim.corpora import Dictionary

# 텍스트 전처리 함수 정의
def preprocess_text(texts):
    # 토큰화
    tokens = [simple_preprocess(text, deacc=True) for text in texts]

    # 불용어 제거
    tokens = [[word for word in doc if word not in remove_stopwords(doc)] for doc in tokens]

    # Bigram 모델 학습
    phrases = Phrases(tokens)

    # Bigram 모델 적용
    bigram = Phraser(phrases)
    tokens = bigram[tokens]

    # 단어 사전 생성
    dictionary = Dictionary(tokens)

    # 단어 사전 필터링
    dictionary.filter_extremes(no_below=10, no_above=0.5)

    # 단어 사전을 이용하여 문서를 BOW(Bag of Words) 형식으로 변환
    corpus = [dictionary.doc2bow(doc) for doc in tokens]

    return corpus, dictionary

# 텍스트 전처리 수행
corpus, dictionary = preprocess_text(texts)

3. 문서 요약 모델 구축

Gensim을 사용하여 텍스트 데이터를 전처리 한 후, 다음은 문서 요약 모델을 구축하는 단계입니다. 여기에서는 LDA(Latent Dirichlet Allocation) 모델을 사용합니다.

from gensim.models import LdaModel

# LDA 모델 생성
lda_model = LdaModel(corpus=corpus,
                     id2word=dictionary,
                     num_topics=5,  # 요약할 문서의 주제 수
                     random_state=42,
                     passes=10,
                     alpha='auto',
                     per_word_topics=True)

4. 문서 요약 결과 확인

모델을 훈련시킨 후, 요약된 결과를 확인해 보는 것이 중요합니다. 아래 코드는 토픽별로 이끌어낸 키워드를 출력하는 방법입니다.

# 문서 요약 결과 확인
topics = lda_model.show_topics(num_topics=5, num_words=10)

for topic in topics:
    print("토픽 {}: {}".format(topic[0], topic[1]))

결론

Gensim을 사용하여 문서 요약 모델을 개발하는 방법에 대해 알아보았습니다. 이를 통해 대용량의 텍스트 문서를 효과적으로 요약할 수 있습니다. Gensim의 다양한 기능과 알고리즘을 활용하여 더욱 복잡한 모델을 만들어 볼 수도 있습니다.

더 많은 정보와 예제 코드는 Gensim의 공식 문서를 참조하시기 바랍니다.

#NLProc #문서요약