Gensim과 Word2Vec을 활용한 문서 유사도 계산 방법 실습하기

09 Nov 2023

gensim

Word2Vec

이번 블로그 포스트에서는 Gensim과 Word2Vec을 사용하여 문서 유사도를 계산하는 방법을 실습해보겠습니다. Gensim은 Python에서 자연어 처리에 많이 사용되는 라이브러리이며, Word2Vec은 단어 임베딩을 생성하는 데 사용되는 알고리즘입니다.

단어 임베딩이란?

단어 임베딩은 컴퓨터가 자연어를 이해하는 데 사용되는 방법입니다. 각 단어는 벡터로 표현되며, 비슷한 의미를 가진 단어들은 벡터 공간에서 가까운 위치에 위치하게 됩니다. 이를 통해 컴퓨터는 단어 간의 유사성을 계산하고, 문서 간의 유사도를 측정할 수 있게 됩니다.

Gensim과 Word2Vec 설치하기

Gensim과 Word2Vec을 사용하기 위해서는 먼저 설치해야 합니다. 아래의 명령어를 사용하여 필요한 패키지들을 설치해주세요.

pip install gensim

문서 유사도 계산하기

이제 실제로 문서 유사도를 계산하는 방법을 알아보겠습니다. 아래와 같이 코드를 작성해보세요.

from gensim.models import Word2Vec

# 문서 데이터
documents = ["우리는 함께 공부하고", "나는 맛있는 음식을 먹었어", "친구와 축구를 하러 갔어"]

# 문서 전처리 및 단어 임베딩 생성
tokenized_documents = [doc.split() for doc in documents]
model = Word2Vec(tokenized_documents, min_count=1)

# 문서 간 유사도 계산
similarity = model.wv.similarity('공부하고', '음식을')
print(f"문서 유사도: {similarity}")

위 코드에서는 세 개의 문서 데이터를 정의하고, 해당 문서들을 전처리하여 단어 단위로 토큰화합니다. 그 후, Word2Vec 모델을 생성하고 단어 임베딩을 학습시킵니다. 마지막으로, 두 단어 ‘공부하고’와 ‘음식을’ 사이의 유사도를 계산하여 출력합니다.

실행 결과

문서 유사도: 0.07989644253206261

위의 예제 코드를 실행하면 ‘공부하고’와 ‘음식을’ 두 단어의 유사도가 0.07989644253206261로 계산됩니다. 이렇게 계산된 유사도는 두 문서 간의 유사도를 나타내며, 유사도 값이 높을수록 문서 간의 유사성도 높다고 볼 수 있습니다.

Gensim과 Word2Vec을 사용하여 문서 유사도를 계산하는 방법에 대해 알아보았습니다. 이를 활용하면 다양한 자연어 처리 작업에 유용한 결과를 얻을 수 있습니다. 추가적인 사용법과 기능은 Gensim 공식 문서를 참조해주세요.

#자연어처리 #문서유사도