[python] NLTK를 사용해 문장 토큰화를 수행하는 방법은 무엇인가요?

30 Nov 2023

python

먼저, “punkt”라는 토크나이저 모듈을 다운로드해야 합니다. 다음과 같이 명령을 실행하여 NLTK를 설치합니다.

import nltk
nltk.download('punkt')

이제 문장 토큰화를 수행할 준비가 되었습니다. 다음은 예시 문장을 토큰화하는 간단한 코드입니다.

from nltk.tokenize import sent_tokenize

text = "안녕하세요. NLTK를 사용한 문장 토큰화 예시입니다. 어떠신가요?"
sentences = sent_tokenize(text)

for sentence in sentences:
    print(sentence)

위 코드를 실행하면 다음과 같은 출력이 나타납니다.

안녕하세요.
NLTK를 사용한 문장 토큰화 예시입니다.
어떠신가요?

문장 토큰화는 문장을 분리하는 작업을 의미합니다. NLTK의 sent_tokenize 함수를 사용하면 주어진 텍스트를 문장 단위로 쉽게 분리할 수 있습니다.

더 많은 NLTK 기능과 사용법에 대해서는 NLTK 공식 문서를 참조하시기 바랍니다. (https://www.nltk.org/)