[파이썬][AI Chatbot] 품사 태깅(Part-of-Speech Tagging)에 대한 개념과 예제

18 Aug 2023

챗봇

품사 태깅(Part-of-Speech Tagging)은 문장 내의 각 단어에 해당하는 품사를 태깅하는 작업입니다. 품사는 단어의 역할과 문법적 의미를 나타내며, 자연어 처리 작업에서 문장의 구조와 의미를 이해하는 데 도움을 줍니다. 품사 태깅은 NLP의 중요한 기본 작업 중 하나입니다.

품사 태깅의 예시:

원본 문장: “I love natural language processing!”

품사 태깅 결과: [(“I”, “PRP”), (“love”, “VBP”), (“natural”, “JJ”), (“language”, “NN”), (“processing”, “NN”), (“!”, “.”)]

여기서 PRP는 인칭 대명사(Personal Pronoun), VBP는 동사(Verb, 현재형), JJ는 형용사(Adjective), NN은 명사(Noun), 그리고 “.”은 문장부호를 나타냅니다.

예제 코드:

Python의 NLTK 라이브러리를 사용하여 품사 태깅을 수행하는 간단한 예제 코드를 보겠습니다.

import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

nltk.download('punkt')

sentence = "I love natural language processing!"
words = word_tokenize(sentence)
tagged_words = pos_tag(words)
print("Part-of-speech tagging:", tagged_words)` 

위 코드에서 pos_tag 함수는 단어를 입력으로 받아서 단어와 해당하는 품사를 결합하여 리스트 형태로 반환합니다. 결과는 각 단어와 그에 해당하는 품사의 쌍으로 이루어진 리스트입니다.

출력 예시:

Part-of-speech tagging: [('I', 'PRP'), ('love', 'VBP'), ('natural', 'JJ'), ('language', 'NN'), ('processing', 'NN'), ('!', '.')]`

품사 태깅은 문장의 문법적 구조를 이해하는 데 도움을 주며, 다양한 NLP 작업에 활용됩니다.