[python] NLTK를 사용해 텍스트의 형태소를 추출하는 방법은 무엇인가요?

30 Nov 2023

python

먼저, NLTK를 설치해야 합니다. Python의 pip를 사용해 설치할 수 있습니다.

pip install nltk

NLTK를 설치한 후, 다음과 같이 텍스트 데이터를 형태소로 분리할 수 있습니다.

import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt')  # 토큰화에 필요한 데이터 다운로드

text = "NLTK를 사용하여 텍스트의 형태소를 추출하는 방법을 알려주세요."
tokens = word_tokenize(text)  # 단어 단위로 토큰화

print(tokens)

위의 코드에서는 word_tokenize 함수를 사용하여 텍스트를 단어 단위로 토큰화했습니다. 출력 결과로는 형태소로 분리된 단어들이 리스트 형태로 출력됩니다.

출력 결과:

['NLTK', '를', '사용하여', '텍스트의', '형태소를', '추출하는', '방법을', '알려주세요', '.']

NLTK는 형태소 분석 뿐만 아니라 다양한 자연어 처리 작업을 수행할 수 있는 다양한 기능과 알고리즘을 제공합니다. 자세한 내용은 NLTK 공식 문서를 참조하십시오.