[python] NLTK를 사용해 코퍼스를 다운로드하고 불러오는 방법은 무엇인가요?
  1. NLTK 설치하기:
    pip install nltk
    
  2. 코퍼스 다운로드하기: NLTK는 다양한 코퍼스를 제공합니다. 예를 들어, 영어 코퍼스인 ‘punkt’를 다운로드하려면 다음과 같이 수행합니다:
    import nltk
    nltk.download('punkt')
    
  3. 코퍼스 사용하기: 다운로드한 코퍼스를 사용하려면 nltk.corpus 모듈을 이용합니다. 예를 들어, ‘punkt’ 코퍼스를 사용하여 문장 토큰화를 수행하려면 다음과 같이 작성합니다:
    from nltk.corpus import gutenberg
    from nltk.tokenize import sent_tokenize
    
    # Gutenberg 코퍼스에서 텍스트 가져오기
    text = gutenberg.raw('shakespeare-hamlet.txt')
    
    # 문장 토큰화 수행
    sentences = sent_tokenize(text)
    print(sentences[:5])
    

    이렇게하면 ‘shakespeare-hamlet.txt’에서 가져온 텍스트를 문장으로 토큰화하여 앞부분의 5개 문장을 출력합니다.

참고 자료: