[파이썬] Gensim에서의 Corpus Streaming

06 Sep 2023

gensim

Gensim은 Python에서 텍스트 문서를 처리하는 데 사용되는 강력한 라이브러리입니다. 이 블로그 포스트에서는 Gensim을 사용하여 대량의 텍스트 문서를 효율적으로 처리하는 방법 중 하나인 Corpus Streaming에 대해 알아보겠습니다.

Corpos Streaming이란?

Corpus Streaming은 일반적으로 대량의 텍스트 문서를 처리할 때 사용되는 기술입니다. 기본적으로 Gensim은 메모리에 전체 문서를 로드하고 모델을 훈련하는데 사용됩니다. 그러나 메모리에 모든 문서를 로드하는 것은 대규모 문서 집합의 경우 비현실적일 수 있습니다. Corpus Streaming은 이러한 문제를 해결하기 위해 문서 집합을 조각으로 나누어 한 번에 하나의 조각만 로드하고 처리하는 기법입니다.

Corpus Streaming의 장점

Corpus Streaming을 사용하는 것에는 몇 가지 장점이 있습니다.

메모리 효율성: 대규모 문서 집합을 처리할 때 메모리 사용량을 최적화할 수 있습니다.
실시간 처리: 대량의 문서를 실시간으로 처리할 수 있어 동적으로 변하는 데이터와 함께 작업할 수 있습니다.
확장성: 큰 데이터 세트의 크기에 영향을 받지 않고 문서 수를 늘릴 수 있습니다.

Corpus Streaming 예제

아래는 Gensim의 Corpus Streaming을 사용하여 텍스트 문서를 처리하는 예제 코드입니다.

import gensim
from gensim.models import LsiModel
from gensim.corpora import Dictionary

class MyCorpus:
    def __iter__(self):
        for document in documents:
            # 텍스트 전처리 및 토큰화 작업 수행
            tokens = preprocess_text(document)
            yield dictionary.doc2bow(tokens)

# 문서 목록
documents = ["This is the first document.", "This document is the second document.", "And this is the third one."]
# 토큰 사전 생성
dictionary = Dictionary(tokenize(document) for document in documents)

# Corpus Streaming 객체 생성
corpus_stream = MyCorpus()

# LSI 모델 생성 및 훈련
lsi_model = LsiModel(corpus_stream, id2word=dictionary, num_topics=10)

# 특정 문서에 대한 토픽 벡터 얻기
doc = "This document is about natural language processing"
bow = dictionary.doc2bow(preprocess_text(doc))
topic_vector = lsi_model[bow]

위의 예제에서 MyCorpus 클래스는 __iter__ 메서드를 구현하여 각 문서를 조각으로 나누고 토큰화하여 반환합니다. 이를 통해 메모리에 한 번에 모든 문서를 로드하고 처리할 필요가 없습니다. LsiModel은 MyCorpus 객체와 함께 사용되어 LSI(잠재 의미 분석) 모델을 생성하고 훈련합니다. 마지막으로, 특정 문서에 대한 토픽 벡터를 얻기 위해 dictionary.doc2bow를 사용하여 문서를 Bag of Words 형식으로 변환하고 lsi_model을 통해 변환된 벡터를 얻습니다.

이와 같은 방식으로 Gensim의 Corpus Streaming을 활용하여 대규모 텍스트 데이터를 효율적으로 처리할 수 있습니다.

마치며

이 포스트에서는 Gensim을 사용하여 텍스트 문서를 처리하는 중요한 기술 중 하나인 Corpus Streaming에 대해 알아보았습니다. Corpus Streaming은 대량의 텍스트 문서 처리에 유용한 기법으로, 메모리 효율성, 실시간 처리 및 확장성을 제공합니다. 이를 통해 Gensim을 사용하여 대규모 텍스트 데이터를 효율적으로 다룰 수 있습니다.