[python] 파이썬 gensim을 이용한 문서 임베딩 결과 해석 방법

19 Dec 2023

python

Gensim은 Python에서 자연어 처리 및 토픽 모델링을 위한 라이브러리로, 문서 임베딩을 통해 문서의 의미론적 유사성을 계산할 수 있습니다. 이번 글에서는 Gensim을 사용하여 얻은 문서 임베딩 결과를 해석하는 방법에 대해 알아보겠습니다.

1. 문서 임베딩이란?

문서 임베딩은 텍스트 데이터를 벡터 형태로 변환하는 기술로, 단어 임베딩과 마찬가지로 단어의 의미론적 유사성을 보존하면서 문서 전체의 의미를 나타냅니다. Gensim을 이용하면 Word2Vec, Doc2Vec, FastText 등의 알고리즘을 활용하여 문서를 임베딩할 수 있습니다.

2. 문서 임베딩 결과 해석 방법

2.1. 유사성 분석

임베딩된 문서 간의 유사성을 분석하여 특정 문서와 유사한 문서를 찾을 수 있습니다. gensim의 similar_by_vector 메서드를 사용하여 문서 간의 코사인 유사도를 계산할 수 있습니다.

import gensim
from gensim.models import Doc2Vec

# Load the model
model = Doc2Vec.load("doc2vec_model")

# Get the vector representation of a document
doc_vector = model.infer_vector("your_document")

# Find similar documents
similar_docs = model.docvecs.most_similar([doc_vector])

2.2. 시각화

임베딩된 문서를 시각화하여 유의미한 구조를 파악할 수 있습니다. gensim의 TSNE나 UMAP 등의 차원 축소 알고리즘을 사용하여 고차원 벡터를 2차원으로 시각화할 수 있습니다.

import matplotlib.pyplot as plt
from sklearn.manifold import TSNE

# Get document vectors
doc_vectors = [model.docvecs[i] for i in range(len(model.docvecs))]

# Reduce dimensionality
tsne = TSNE(n_components=2)
doc_embeddings_2d = tsne.fit_transform(doc_vectors)

# Visualize
plt.scatter(doc_embeddings_2d[:, 0], doc_embeddings_2d[:, 1])
plt.show()

2.3. 클러스터링

임베딩 결과를 이용하여 문서를 클러스터링하면 유사한 주제를 갖는 문서들을 그룹화할 수 있습니다. K-means나 DBSCAN과 같은 클러스터링 알고리즘을 사용하여 임베딩된 문서를 클러스터링할 수 있습니다.

from sklearn.cluster import KMeans

# Cluster documents
num_clusters = 3
kmeans = KMeans(n_clusters=num_clusters)
clusters = kmeans.fit_predict(doc_vectors)

결론

Gensim을 사용하여 얻은 문서 임베딩 결과를 분석하고 해석하기 위해서는 유사성 분석, 시각화, 클러스터링 등의 다양한 기법을 활용할 수 있습니다. 이러한 방법들을 통해 문서의 의미를 파악하고 유의미한 정보를 추출할 수 있습니다.

참고문헌:

Gensim Documentation: https://radimrehurek.com/gensim/auto_examples/index.html
“Document Embedding with Paragraph Vectors” - Quoc Le, Tomas Mikolov: https://arxiv.org/abs/1507.07998