파이썬 SpaCy를 사용하여 텍스트의 단어 빈도 분석(Word Frequency Analysis)

SpaCy logo

SpaCy는 파이썬의 자연어 처리(NLP) 라이브러리로, 강력하고 효율적인 텍스트 처리 기능을 제공합니다. 이번에는 SpaCy를 사용하여 텍스트의 단어 빈도 분석을 해보도록 하겠습니다.

필요한 라이브러리 설치하기

먼저, SpaCy를 설치해야 합니다. 아래 명령어를 사용하여 SpaCy를 설치합니다.

pip install -U spacy

SpaCy 설치 후, 영어 자연어 처리 모델을 다운로드 받아야 합니다. 아래 명령어를 사용하여 영어 모델을 다운로드 받습니다.

python -m spacy download en_core_web_sm

코드 예시

다음은 SpaCy를 사용하여 텍스트의 단어 빈도를 분석하는 예시 코드입니다.

import spacy
from collections import Counter

# SpaCy 모델 로드
nlp = spacy.load('en_core_web_sm')

# 텍스트 입력
text = "SpaCy is a library for natural language processing in Python."

# 텍스트를 SpaCy의 문서(Document)로 변환
doc = nlp(text)

# 각 단어의 빈도 계산
word_frequencies = Counter([token.text.lower() for token in doc if token.is_alpha])

# 빈도가 가장 높은 단어 3개 출력
top_words = word_frequencies.most_common(3)
for word, frequency in top_words:
    print(f"{word}: {frequency}")

위 코드는 입력한 텍스트에서 각 단어의 빈도를 계산하고, 가장 빈도가 높은 단어 3개를 출력합니다.

결론

SpaCy를 사용하여 텍스트의 단어 빈도 분석은 간단하게 할 수 있습니다. SpaCy의 강력하고 효율적인 기능을 활용하여 자연어 처리 작업을 쉽게 수행할 수 있습니다.

#python #naturallanguageprocessing #textanalysis