[python] NLTK를 사용해 텍스트 토큰화를 수행하는 방법은 무엇인가요?

30 Nov 2023

python

먼저, NLTK를 설치해야 합니다. 다음과 같이 명령어를 입력해 설치할 수 있습니다:

$ pip install nltk

NLTK를 설치한 후에는 다음과 같이 코드를 작성하여 텍스트 토큰화를 수행할 수 있습니다:

import nltk
from nltk.tokenize import word_tokenize

# 예시 텍스트
text = "NLTK를 사용해 텍스트 토큰화를 수행하는 방법을 알아봅시다."

# 토큰화 수행
tokens = word_tokenize(text)

# 결과 출력
print(tokens)

위 코드에서는 먼저 nltk와 word_tokenize를 import합니다. 그리고 예시로 사용할 텍스트를 변수에 저장합니다. word_tokenize 함수를 사용하여 이 텍스트를 토큰화합니다. 최종적으로, 토큰화된 결과를 출력합니다.

실행 결과는 다음과 같습니다:

['NLTK', '를', '사용해', '텍스트', '토큰화를', '수행하는', '방법을', '알아봅시다', '.']

NLTK의 word_tokenize 함수는 주어진 텍스트를 단어 단위로 토큰화합니다. 이외에도 NLTK에는 문장 단위로 토큰화하는 sent_tokenize 함수 등 다양한 토큰화 함수가 제공됩니다.

더 많은 정보는 NLTK 공식 문서를 참고하시기 바랍니다.