[python] gensim을 활용한 문서 유사도 계산 실전 예제

Gensim은 Python에서 자연어 처리를 위한 라이브러리로 유명합니다. 이 라이브러리를 사용하면 문서들 간의 유사도를 계산할 수 있어요. 문서 유사도 계산을 위해 Gensim을 사용하는 방법에 대해 알아보겠습니다.

필요한 라이브러리 설치

먼저 Gensim을 설치해야 합니다. 아래 명령어로 간단히 설치할 수 있어요.

pip install gensim

문서 유사도 계산 실전 예제

다음은 Gensim을 사용하여 문서 유사도를 계산하는 간단한 예제입니다.

from gensim.models import Word2Vec
from gensim.similarities import WmdSimilarity
from gensim import corpora

# 전처리된 문서들
documents = [
    ['apple', 'banana', 'orange'],
    ['apple', 'orange', 'kiwi', 'strawberry'],
    ['banana', 'kiwi', 'pineapple'],
]

# 모델 학습
model = Word2Vec(documents, vector_size=100, window=5, min_count=1, workers=4)

# 단어 사전 구축
dictionary = corpora.Dictionary(documents)

# WMD 유사도 계산
instance = WmdSimilarity(documents, model, num_best=3)

# 쿼리 문서
query = ['apple', 'orange']

# 유사도 계산
sims = instance[dictionary.doc2bow(query)]
print(sims)

위의 예제에서는 Gensim을 사용하여 단어 벡터 모델을 학습하고, 문서들 간의 유사도를 계산하는 과정이 담겨 있습니다. 이를 통해 Gensim을 활용하여 문서 유사도를 계산하는 방법을 살펴보았습니다.

Gensim은 다양한 문서 유사도 계산 및 자연어 처리 작업에 활용될 수 있는 강력한 도구입니다. 여러분들도 Gensim을 활용하여 자연어 처리 관련 작업을 쉽게 수행할 수 있을 것입니다.

결론

이상으로 Gensim을 활용한 문서 유사도 계산 실전 예제에 대해 살펴보았습니다. Gensim을 사용하면 다양한 자연어 처리 작업을 보다 쉽게 수행할 수 있으며, 특히 문서 간의 유사도 계산에 유용한 도구로 활용될 수 있습니다. 만약 Gensim에 대해 더 알고 싶다면, Gensim 공식 문서를 참고해보세요.