[python] NLTK를 사용해 텍스트의 형태소를 추출하는 방법은 무엇인가요?
먼저, NLTK를 설치해야 합니다. Python의 pip를 사용해 설치할 수 있습니다.
pip install nltk
NLTK를 설치한 후, 다음과 같이 텍스트 데이터를 형태소로 분리할 수 있습니다.
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt') # 토큰화에 필요한 데이터 다운로드
text = "NLTK를 사용하여 텍스트의 형태소를 추출하는 방법을 알려주세요."
tokens = word_tokenize(text) # 단어 단위로 토큰화
print(tokens)
위의 코드에서는 word_tokenize
함수를 사용하여 텍스트를 단어 단위로 토큰화했습니다. 출력 결과로는 형태소로 분리된 단어들이 리스트 형태로 출력됩니다.
출력 결과:
['NLTK', '를', '사용하여', '텍스트의', '형태소를', '추출하는', '방법을', '알려주세요', '.']
NLTK는 형태소 분석 뿐만 아니라 다양한 자연어 처리 작업을 수행할 수 있는 다양한 기능과 알고리즘을 제공합니다. 자세한 내용은 NLTK 공식 문서를 참조하십시오.