[python] NLTK를 사용해 코퍼스를 다운로드하고 불러오는 방법은 무엇인가요?
- NLTK 설치하기:
pip install nltk
- 코퍼스 다운로드하기:
NLTK는 다양한 코퍼스를 제공합니다. 예를 들어, 영어 코퍼스인 ‘punkt’를 다운로드하려면 다음과 같이 수행합니다:
import nltk nltk.download('punkt')
- 코퍼스 사용하기:
다운로드한 코퍼스를 사용하려면
nltk.corpus
모듈을 이용합니다. 예를 들어, ‘punkt’ 코퍼스를 사용하여 문장 토큰화를 수행하려면 다음과 같이 작성합니다:from nltk.corpus import gutenberg from nltk.tokenize import sent_tokenize # Gutenberg 코퍼스에서 텍스트 가져오기 text = gutenberg.raw('shakespeare-hamlet.txt') # 문장 토큰화 수행 sentences = sent_tokenize(text) print(sentences[:5])
이렇게하면 ‘shakespeare-hamlet.txt’에서 가져온 텍스트를 문장으로 토큰화하여 앞부분의 5개 문장을 출력합니다.
참고 자료:
- NLTK 공식 웹사이트: https://www.nltk.org/
- NLTK 코퍼스 목록: https://www.nltk.org/book/ch02.html#tab-corpora