[python] NLTK를 사용해 문서의 표현 방식을 파악하는 방법은 무엇인가요?

NLTK를 사용하여 문서의 표현 방식을 파악하는 방법 중 일반적인 방법은 다음과 같습니다:

  1. 토큰화(Tokenization): 문서를 토큰으로 분할하여 단어와 구문 요소를 각각의 토큰으로 취급합니다. NLTK는 문서를 단어, 문장 또는 구두점 등으로 토큰화하는 기능을 제공합니다.
import nltk
nltk.download('punkt')

from nltk.tokenize import word_tokenize, sent_tokenize

document = "NLTK를 사용해 문서의 표현 방식을 파악하는 방법을 알아보겠습니다."
words = word_tokenize(document)
sentences = sent_tokenize(document)

print("단어 토큰화 결과:", words)
print("문장 토큰화 결과:", sentences)
  1. 불용어 제거(Stopword Removal): 일반적으로 자주 등장하지만 문서의 의미를 파악하는데 유용하지 않은 단어를 제거합니다. NLTK는 영어와 여러 다른 언어에 대한 불용어 목록을 제공하며, 이를 사용하여 불용어를 제거할 수 있습니다.
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

filtered_words = [word for word in words if word.casefold() not in stop_words]

print("불용어 제거 결과:", filtered_words)
  1. 단어 빈도 계산(Term Frequency Calculation): 문서에서 각 단어의 등장 빈도를 계산합니다. 단어의 등장 빈도는 해당 단어가 문서 내에서 얼마나 자주 나타나는지를 나타냅니다.
from nltk.probability import FreqDist

word_frequency = FreqDist(filtered_words)

print("단어 빈도 결과:", word_frequency)

NLTK를 사용하여 문서의 표현 방식을 파악하는 방법은 위에서 언급한 방법 이외에도 다양한 기능을 활용할 수 있습니다. NLTK의 다른 기능에 대해 더 자세히 알아보려면 NLTK 공식 문서를 참조하십시오.