[python] NLTK를 사용해 언어 코퍼스를 탐색하는 방법은 무엇인가요?

30 Nov 2023

python

NLTK 설치: NLTK를 사용하기 위해서는 먼저 NLTK 패키지를 설치해야 합니다. pip install nltk 명령을 사용하여 설치할 수 있습니다.
코퍼스 다운로드: NLTK는 많은 언어 코퍼스를 제공합니다. 다운로드하려는 코퍼스에 따라 nltk.download() 함수를 사용하여 해당 코퍼스를 다운로드할 수 있습니다. 예를 들어, 영어 코퍼스를 다운로드하려면 nltk.download('popular')을 실행하면 됩니다.
코퍼스 탐색: NLTK는 다양한 메소드를 제공하여 코퍼스를 탐색할 수 있습니다. 가장 일반적인 메소드 중 하나는 nltk.Text 클래스를 사용하여 텍스트 데이터를 만드는 것입니다. 이 클래스는 주어진 코퍼스를 탐색하고 분석하기 위한 다양한 기능을 제공합니다.

다음은 간단한 예제 코드입니다:

import nltk
nltk.download('popular')

# 코퍼스 로드
text = nltk.Text(nltk.corpus.gutenberg.words('austen-emma.txt'))

# 단어 빈도수 확인
print(text.count('Emma'))

# 단어 검색
print(text.concordance('Emma'))

# 유사 단어 찾기
print(text.similar('Emma'))

# 문장 분리
sentences = nltk.sent_tokenize(text)
print(sentences)

위의 코드는 NLTK에서 제공하는 ‘austen-emma.txt’ 코퍼스를 사용하여 Emma라는 단어의 빈도수를 확인하고, Emma와 유사한 단어를 찾으며, 코퍼스를 문장으로 분리하는 예제입니다.

더 많은 NLTK의 기능과 메소드에 대해서는 NLTK 공식 문서(https://www.nltk.org/)를 참조하시기 바랍니다.