[python] NLTK를 사용해 품사 태깅을 수행하는 방법은 무엇인가요?

30 Nov 2023

먼저, 필요한 라이브러리를 import합니다:

import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

다음으로, 텍스트를 토큰화합니다:

text = "NLTK를 사용해 품사 태깅을 수행하는 예제입니다."
tokens = word_tokenize(text)

마지막으로, 토큰화한 단어들에 대해 품사 태깅을 수행합니다:

tagged_words = pos_tag(tokens)

tagged_words 리스트는 (단어, 품사)의 튜플로 구성되어 있습니다. 이를 출력해보면 품사 태깅 결과를 확인할 수 있습니다:

print(tagged_words)

출력결과:

[('NLTK를', 'unknown'), ('사용해', 'unknown'), ('품사', 'Noun'), ('태깅을', 'unknown'), ('수행하는', 'Verb'), ('예제입니다', 'unknown'), ('.', 'Punctuation')]

위 예제에서 “NLTK를”과 “사용해”는 알 수 없는 품사로 태깅되었고, “품사”는 명사(Noun)로 태깅되었습니다.

더 자세한 정보는 NLTK 공식 문서[^1^]를 참조하시기 바랍니다.