[python] NLTK를 사용해 텍스트 토큰화를 수행하는 방법은 무엇인가요?
먼저, NLTK를 설치해야 합니다. 다음과 같이 명령어를 입력해 설치할 수 있습니다:
$ pip install nltk
NLTK를 설치한 후에는 다음과 같이 코드를 작성하여 텍스트 토큰화를 수행할 수 있습니다:
import nltk
from nltk.tokenize import word_tokenize
# 예시 텍스트
text = "NLTK를 사용해 텍스트 토큰화를 수행하는 방법을 알아봅시다."
# 토큰화 수행
tokens = word_tokenize(text)
# 결과 출력
print(tokens)
위 코드에서는 먼저 nltk
와 word_tokenize
를 import합니다. 그리고 예시로 사용할 텍스트를 변수에 저장합니다. word_tokenize
함수를 사용하여 이 텍스트를 토큰화합니다. 최종적으로, 토큰화된 결과를 출력합니다.
실행 결과는 다음과 같습니다:
['NLTK', '를', '사용해', '텍스트', '토큰화를', '수행하는', '방법을', '알아봅시다', '.']
NLTK의 word_tokenize
함수는 주어진 텍스트를 단어 단위로 토큰화합니다. 이외에도 NLTK에는 문장 단위로 토큰화하는 sent_tokenize
함수 등 다양한 토큰화 함수가 제공됩니다.
더 많은 정보는 NLTK 공식 문서를 참고하시기 바랍니다.