[python] NLTK를 사용해 언어 코퍼스를 탐색하는 방법은 무엇인가요?
-
NLTK 설치: NLTK를 사용하기 위해서는 먼저 NLTK 패키지를 설치해야 합니다.
pip install nltk
명령을 사용하여 설치할 수 있습니다. -
코퍼스 다운로드: NLTK는 많은 언어 코퍼스를 제공합니다. 다운로드하려는 코퍼스에 따라
nltk.download()
함수를 사용하여 해당 코퍼스를 다운로드할 수 있습니다. 예를 들어, 영어 코퍼스를 다운로드하려면nltk.download('popular')
을 실행하면 됩니다. -
코퍼스 탐색: NLTK는 다양한 메소드를 제공하여 코퍼스를 탐색할 수 있습니다. 가장 일반적인 메소드 중 하나는
nltk.Text
클래스를 사용하여 텍스트 데이터를 만드는 것입니다. 이 클래스는 주어진 코퍼스를 탐색하고 분석하기 위한 다양한 기능을 제공합니다.
다음은 간단한 예제 코드입니다:
import nltk
nltk.download('popular')
# 코퍼스 로드
text = nltk.Text(nltk.corpus.gutenberg.words('austen-emma.txt'))
# 단어 빈도수 확인
print(text.count('Emma'))
# 단어 검색
print(text.concordance('Emma'))
# 유사 단어 찾기
print(text.similar('Emma'))
# 문장 분리
sentences = nltk.sent_tokenize(text)
print(sentences)
위의 코드는 NLTK에서 제공하는 ‘austen-emma.txt’ 코퍼스를 사용하여 Emma라는 단어의 빈도수를 확인하고, Emma와 유사한 단어를 찾으며, 코퍼스를 문장으로 분리하는 예제입니다.
더 많은 NLTK의 기능과 메소드에 대해서는 NLTK 공식 문서(https://www.nltk.org/)를 참조하시기 바랍니다.