[python] NLTK를 사용해 텍스트의 형태소를 분리하는 방법은 무엇인가요?

30 Nov 2023

python

NLTK(Natural Language Toolkit)은 Python에서 자연어 처리 작업을 수행하기 위한 강력한 도구입니다. NLTK를 사용하여 텍스트의 형태소를 분리하려면 먼저 해당 텍스트를 토큰화해야 합니다. 토큰화란 텍스트를 작은 단위로 나누는 작업을 말합니다.

import nltk
from nltk.tokenize import word_tokenize

text = "NLTK를 사용하면 텍스트를 토큰화할 수 있습니다."

# 텍스트를 토큰화하여 단어 단위로 나누기
tokens = word_tokenize(text)

print(tokens)

위의 코드는 NLTK의 word_tokenize 함수를 사용하여 텍스트를 토큰화하는 예시입니다. 입력된 텍스트를 단어 단위로 나누어서 tokens 변수에 저장하고 출력합니다.

NLTK에는 형태소 분석 기능을 제공하는 다양한 패키지가 있습니다. 가장 일반적으로 사용되는 형태소 분석기 중 하나는 KoNLPy입니다. KoNLPy는 한국어 자연어 처리에 특화된 패키지이며, KoNLPy를 사용하면 한글에 대한 형태소 분석도 쉽게 수행할 수 있습니다.

from konlpy.tag import Okt

okt = Okt()

text = "NLTK와 KoNLPy를 함께 사용하여 형태소 분석을 할 수 있습니다."

# 텍스트를 형태소 단위로 분리하기
morphs = okt.morphs(text)

print(morphs)

위의 코드는 KoNLPy의 Okt 클래스를 사용하여 한글 텍스트의 형태소를 분리하는 예시입니다. 입력된 텍스트를 형태소 단위로 분리하여 morphs 변수에 저장하고 출력합니다.

참고문헌:

NLTK 공식 문서: https://www.nltk.org/
KoNLPy 공식 문서: http://konlpy.org/