[python] 함수의 자연어 처리
자연어 처리(Natural Language Processing, NLP)는 컴퓨터가 인간의 언어를 이해하고 처리하는 기술입니다. Python은 NLP 작업을 수행하는 데 매우 효율적이며, 다양한 함수를 사용하여 다양한 NLP 작업을 수행할 수 있습니다. 이 블로그 포스트에서는 Python의 함수를 사용하여 자연어 처리 작업을 수행하는 방법에 대해 알아보겠습니다.
목차
텍스트 전처리
텍스트 전처리는 텍스트 데이터를 정제하고 구조화하는 작업을 말합니다. Python에서는 NLTK
와 Spacy
와 같은 라이브러리를 사용하여 텍스트 전처리를 수행할 수 있습니다.
import nltk
from nltk.tokenize import word_tokenize
text = "자연어 처리를 위한 텍스트 전처리 작업"
tokens = word_tokenize(text)
print(tokens)
품사 태깅
품사 태깅은 문장 내 각 단어의 품사를 식별하는 작업을 말합니다. Python의 nltk.pos_tag
함수를 사용하여 품사 태깅을 수행할 수 있습니다.
from nltk import pos_tag
nltk.download('averaged_perceptron_tagger')
tagged_words = pos_tag(tokens)
print(tagged_words)
청크 단위 추출
청크 단위 추출은 문장 내에서 명사구, 동사구 등과 같은 구문적 단위를 추출하는 작업을 말합니다. Python의 nltk.RegexpParser
를 사용하여 청크 단위 추출을 수행할 수 있습니다.
from nltk import RegexpParser
grammar = "NP: {<DT>?<JJ>*<NN>}"
chunk_parser = RegexpParser(grammar)
tree = chunk_parser.parse(tagged_words)
tree.draw()
개체명 인식
개체명 인식은 문장 내에서 개체(인물, 장소, 조직 등)를 인식하는 작업을 말합니다. Python의 spacy
라이브러리를 사용하여 개체명 인식을 수행할 수 있습니다.
import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
for ent in doc.ents:
print(ent.text, ent.label_)
이처럼 Python의 다양한 함수를 사용하여 자연어 처리 작업을 쉽게 수행할 수 있습니다. 여러분도 Python을 활용하여 NLP 작업을 효율적으로 수행해 보세요!