[python] 파이썬 네이처언어 프로세싱 라이브러리의 주요 기능

21 Dec 2023

python

자연어 처리(NLP)는 인간의 언어를 기계가 인식, 이해, 해석하고 자연어와 관련된 작업을 수행하는 인공지능 분야를 의미합니다. 파이썬은 NLP 작업을 수행하기 위한 다양한 라이브러리를 제공하며, 이들 라이브러리는 다음과 같은 주요 기능을 제공합니다.

1. 자연어 토큰화 (Natural Language Tokenization)

텍스트를 토큰으로 분할해주는 기능을 제공합니다. 이를 통해 문장을 단어 또는 구문 단위로 나누어 처리할 수 있습니다.

import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

# 문장 토큰화
sentences = sent_tokenize(text)

# 단어 토큰화
words = word_tokenize(sentence)

2. 형태소 분석 (Morphological Analysis)

일반적으로 단어의 형태소를 분리하여 품사를 태깅해주는 기능을 제공합니다. 이를 통해 단어의 형태나 문맥을 이해하는 데 도움이 됩니다.

from konlpy.tag import Kkma

kkma = Kkma()
morphs = kkma.pos("자연어 처리는 인간의 언어를 기계가 이해하고 처리하는 분야입니다.")

3. 어간 추출과 표제어 추출 (Stemming and Lemmatization)

이 두 가지는 단어의 원형을 찾아줌으로써 문서 내의 단어들을 정규화시켜줍니다.

from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer

ps = PorterStemmer()
stemmed_word = ps.stem("running")

wnl = WordNetLemmatizer()
lemma_word = wnl.lemmatize("running")

4. 개체명 인식 (Named Entity Recognition, NER)

텍스트에서 중요한 정보를 추출하는 기능 중 하나로, 사람, 조직, 날짜 등의 중요한 단어들을 인식하고 추출합니다.

import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
for ent in doc.ents:
    print(ent.text, ent.label_)

이와 같이 파이썬 NLP 라이브러리는 여러 가지 기능을 통해 다양한 자연어 처리 작업을 효과적으로 수행할 수 있도록 지원하고 있습니다.

1. 자연어 토큰화 (Natural Language Tokenization)

2. 형태소 분석 (Morphological Analysis)

3. 어간 추출과 표제어 추출 (Stemming and Lemmatization)

4. 개체명 인식 (Named Entity Recognition, NER)

참고 자료