[python] NLTK를 사용해 형태소 분석을 수행하는 방법은 무엇인가요?
-
NLTK 설치하기: NLTK를 사용하기 위해 우선 NLTK를 설치해야 합니다. 파이썬의 패키지 관리자인 pip를 사용하여 설치할 수 있습니다. 터미널에서 다음의 명령을 실행하세요:
pip install nltk
-
데이터 세트 다운로드: NLTK에는 형태소 분석을 위한 다양한 데이터 세트가 있습니다. 원하는 데이터 세트를 다운로드해야 합니다. 예를 들어, 영어 형태소 분석을 수행하기 위해 ‘punkt’ 데이터를 다운로드하려면 파이썬 스크립트에서 다음과 같이 작성하세요:
import nltk nltk.download('punkt')
-
텍스트 토큰화: 텍스트를 토큰(token)으로 분리하여 형태소 분석을 수행합니다. NLTK의
word_tokenize()
함수를 사용하여 텍스트를 토큰화할 수 있습니다:from nltk.tokenize import word_tokenize text = "NLTK를 사용한 형태소 분석입니다." tokens = word_tokenize(text)
-
형태소 분석기 선택: 텍스트 토큰화 후, 원하는 형태소 분석기를 선택해야 합니다. NLTK에는 다양한 형태소 분석기가 있습니다. 가장 간단한 형태소 분석기로는 POS(품사)태그를 추가하는
pos_tag()
함수를 사용할 수 있습니다:from nltk import pos_tag tagged_tokens = pos_tag(tokens)
-
결과 확인하기: 형태소 분석 결과를 확인합니다.
pos_tag()
함수는 토큰과 해당 토큰의 형태소 정보를 튜플로 반환합니다. 이를 활용하여 원하는 분석 결과를 얻을 수 있습니다:for token, tag in tagged_tokens: print(token, tag)
NLTK를 사용하여 간단하게 형태소 분석을 수행하는 방법을 살펴보았습니다. 자세한 사항은 NLTK 공식 문서를 참조하시기 바랍니다.