[python] NLTK를 사용해 단어 빈도수를 계산하는 방법은 무엇인가요?

30 Nov 2023

먼저, nltk 모듈을 임포트합니다:

import nltk

다음으로, 텍스트 데이터를 토큰화하여 단어로 분할합니다:

text = "NLTK는 Python에서 자연어 처리 작업을 수행하는 데 사용되는 강력한 도구입니다."
tokens = nltk.word_tokenize(text)

이제 FreqDist 클래스를 사용하여 단어 빈도수를 계산할 수 있습니다:

freq_dist = nltk.FreqDist(tokens)

빈도 분포 객체를 사용하여 가장 빈도가 높은 단어와 그 빈도수를 확인할 수 있습니다:

most_common_words = freq_dist.most_common(5)
print(most_common_words)

결과는 다음과 같이 출력됩니다:

[('NLTK는', 1), ('Python에서', 1), ('자연어', 1), ('처리', 1), ('작업을', 1)]

이와 같은 방법으로 NLTK를 사용하여 단어 빈도수를 계산할 수 있습니다.

자세한 정보는 NLTK 공식 문서를 참조하십시오.