Gensim과 Word2Vec을 활용한 단어 임베딩 구현하기

09 Nov 2023

gensim

단어 임베딩은 자연어 처리 분야에서 중요한 작업 중 하나입니다. 이를 통해 단어를 벡터 형태로 표현할 수 있으며, 이벡터는 단어 간의 의미적 유사성을 측정할 수 있는 유용한 도구입니다.

Gensim은 Python에서 자연어 처리에 사용되는 강력한 라이브러리입니다. 이 라이브러리를 활용하여 Word2Vec 모델을 구현해보겠습니다. Word2Vec은 단어 임베딩을 학습하는 알고리즘 중 하나로, 단어의 주변 단어를 고려하여 벡터를 생성하는 CBOW(Continuous Bag of Words)과 Skip-gram 두 가지 방식을 제공합니다.

먼저, Gensim과 Word2Vec을 설치합니다. 다음 명령어를 실행하여 필요한 패키지를 설치할 수 있습니다.

pip install gensim

다음은 Word2Vec 모델을 통해 단어 임베딩을 학습하는 예제 코드입니다.

from gensim.models import Word2Vec
sentences = [["I", "love", "coding"],
             ["Python", "is", "awesome"],
             ["machine", "learning", "is", "interesting"]]

# Word2Vec 모델 학습
model = Word2Vec(sentences, min_count=1)

# 단어 벡터 확인
vector = model.wv['coding']
print(vector)

위 코드에서는 sentences 변수에 학습에 사용할 문장들을 리스트 형태로 저장합니다. Word2Vec 모델을 초기화한 후 학습할 문장을 넣어주고, min_count 매개변수를 설정하여 특정 빈도 이하로 등장하는 단어를 제외할 수 있습니다. 학습이 완료되면 model.wv를 통해 단어 벡터를 확인할 수 있습니다.

이를 실행하면 ‘coding’이라는 단어의 벡터를 확인할 수 있습니다. 비슷한 의미를 지닌 단어들은 같은 벡터 공간에 위치하게 됩니다.

이처럼 Gensim과 Word2Vec을 활용하여 단어 임베딩을 구현할 수 있습니다. 자연어 처리 작업에서 이 기법을 활용하면 문장이나 문서를 벡터로 표현하여 다양한 응용이 가능해집니다.

References

Gensim 공식 문서: https://radimrehurek.com/gensim/
Word2Vec 논문: https://arxiv.org/abs/1301.3781
Gensim 설치 가이드: https://radimrehurek.com/gensim/install.html #tags #gensim #word2vec