[파이썬] 말뭉치(Corpus) 개념과 예제

18 Aug 2023

gensim

말뭉치(Corpus)는 자연어 처리 작업을 위해 수집된 텍스트 데이터의 집합을 말합니다. 이 데이터는 분석, 모델 학습, 평가 등 다양한 자연어 처리 작업에서 사용됩니다. 말뭉치는 텍스트 데이터의 다양한 유형과 주제를 포함하며, 이를 통해 모델이 다양한 상황과 언어를 이해하고 처리할 수 있도록 합니다.

예를 들어, 영어에서 영화 리뷰, 뉴스 기사, 소설 등의 다양한 형태의 텍스트 데이터를 수집하여 말뭉치를 구성할 수 있습니다.

아래는 간단한 말뭉치 관리 예제를 보여드리겠습니다.

from nltk.corpus import reuters

## 말뭉치 다운로드 (한 번만 실행)
import nltk
nltk.download('reuters')

## 말뭉치에서 문서 읽어오기
document_ids = reuters.fileids()[:5]  # 처음 5개 문서 선택

## 선택한 문서 출력
for doc_id in document_ids:
    words = reuters.words(doc_id)
    print(f"Document ID: {doc_id}")
    print(" ".join(words[:50]))  # 처음 50단어 출력
    print()` 

위의 코드에서 nltk 라이브러리의 reuters 말뭉치를 사용하여 다운로드하고, 선택한 문서의 내용을 출력합니다.

예제 출력:

Document ID: test/14826
ASIAN EXPORTERS FEAR DAMAGE FROM U.S.-JAPAN RIFT
...` 

말뭉치 관리는 자연어 처리 작업의 시작 단계 중 하나로, 다양한 텍스트 데이터를 수집하고 저장하여 모델 학습 및 평가에 활용합니다. 또한 말뭉치는 자연어 처리 기술의 발전과 연구를 위한 중요한 자원이 됩니다.