[python] NLTK를 사용해 문서로부터 문장을 추출하는 방법은 무엇인가요?

30 Nov 2023

python

NLTK(자연어 처리 툴킷)는 파이썬에서 자연어 처리 작업을 쉽게 수행할 수 있도록 도와주는 라이브러리입니다. 문서로부터 문장을 추출하기 위해서는 NLTK의 sent_tokenize 함수를 사용할 수 있습니다. 이 함수는 문서를 문장 단위로 분리해주는 역할을 합니다.

먼저, NLTK를 설치하고 import 문으로 sent_tokenize 함수를 가져옵니다:

import nltk
from nltk.tokenize import sent_tokenize

다음으로, 문서를 준비합니다. 예를 들어, 다음과 같은 변수에 문서를 할당해봅시다:

document = "안녕하세요? NLTK를 사용해 문장을 추출하는 예제입니다. 이 문장은 첫 번째 문장입니다. 두 번째 문장은 무엇일까요?"

이제 sent_tokenize 함수를 사용해 문서를 문장 단위로 분리합니다:

sentences = sent_tokenize(document)

sentences 변수에는 문장으로 분리된 리스트가 저장됩니다. 이 리스트를 출력해보면 다음과 같습니다:

['안녕하세요?', 'NLTK를 사용해 문장을 추출하는 예제입니다.', '이 문장은 첫 번째 문장입니다.', '두 번째 문장은 무엇일까요?']

위와 같이 문서로부터 문장을 추출할 수 있습니다. NLTK를 사용하면 자연어 처리 작업을 더욱 편리하게 수행할 수 있습니다.

더 자세한 내용은 NLTK 공식 문서를 참고하시기 바랍니다.