[python] NLTK를 사용해 텍스트의 형태소를 태깅하는 방법은 무엇인가요?

30 Nov 2023

python

먼저, NLTK를 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.

pip install nltk

NLTK를 설치한 후, 다음과 같은 코드로 텍스트의 형태소를 태깅할 수 있습니다.

import nltk
from nltk.tokenize import word_tokenize

# NLTK의 형태소 분석기를 불러옵니다.
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

# 텍스트를 입력합니다.
text = "NLTK를 사용해 텍스트의 형태소를 태깅하는 방법을 알아보겠습니다."

# 워드 토큰화를 수행합니다.
tokens = word_tokenize(text)

# 형태소를 태깅합니다.
tagged = nltk.pos_tag(tokens)

# 결과를 출력합니다.
print(tagged)

위 코드를 실행하면, 텍스트의 각 단어와 해당하는 형태소 태그가 출력됩니다.

NLTK는 주로 영어 텍스트에 사용되지만, 한국어 형태소 분석을 위해 KoNLPy 라이브러리를 사용할 수도 있습니다. KoNLPy를 사용하면 한국어 텍스트의 형태소를 태깅할 수 있습니다. KoNLPy를 설치한 후, 다음과 같은 코드로 한국어 형태소를 태깅할 수 있습니다.

from konlpy.tag import Okt

# 텍스트를 입력합니다.
text = "한국어 형태소를 태깅하는 방법을 알아보겠습니다."

# 형태소 분석기를 불러옵니다.
okt = Okt()

# 형태소를 태깅합니다.
tagged = okt.pos(text)

# 결과를 출력합니다.
print(tagged)

위 코드를 실행하면 한국어 텍스트의 각 단어와 해당하는 형태소 태그가 출력됩니다.

자세한 내용은 NLTK 공식 문서(https://www.nltk.org/)와 KoNLPy 공식 문서(https://konlpy.org/)를 참고하시면 도움이 됩니다.