[python] 파이썬 네이처언어 프로세싱 라이브러리를 이용한 텍스트 전처리

21 Dec 2023

python

텍스트 데이터는 자연어 처리 작업에서 핵심적인 요소입니다. 이러한 텍스트 데이터를 분석하고 모델링하기 전에 텍스트를 처리하고 정제하는 과정이 필요합니다. 파이썬의 네이처언어 프로세싱 라이브러리를 사용하면 이러한 텍스트 전처리 작업을 효율적으로 수행할 수 있습니다.

라이브러리 설치

우선, 텍스트 전처리를 위해 네이처언어 프로세싱 라이브러리를 설치해야 합니다. 파이썬에서는 nltk 라이브러리를 사용할 수 있습니다. 아래의 명령을 사용하여 nltk 라이브러리를 설치합니다.

pip install nltk

텍스트 토큰화

텍스트 토큰화는 텍스트를 작은 단위로 나누는 작업을 말합니다. 예를 들어, 문장을 단어 단위로 나누거나 문단을 문장 단위로 나눌 수 있습니다. nltk 라이브러리를 사용하여 이러한 텍스트 토큰화 작업을 수행할 수 있습니다.

import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

text = "텍스트를 토큰화하는 예제입니다. 이 문장을 단어로 나누려면 word_tokenize를 사용합니다."
words = word_tokenize(text)
sentences = sent_tokenize(text)

print(words)
print(sentences)

텍스트 정제

토큰화된 텍스트를 정제하는 과정은 불필요한 정보를 제거하고 텍스트를 표준화하는 작업을 말합니다. 이 과정에는 불용어 제거, 특수 문자 제거, 대소문자 통일 등이 포함될 수 있습니다. nltk 라이브러리를 사용하여 다양한 텍스트 정제 작업을 수행할 수 있습니다.

from nltk.corpus import stopwords
import string

def clean_text(text):
    stop_words = set(stopwords.words('english'))
    words = word_tokenize(text)
    words = [word for word in words if word.lower() not in stop_words]
    words = [word for word in words if word.isalpha()]
    text = ' '.join(words)
    return text

text = "텍스트를 정제하는 예제입니다. This is an example sentence with some stopwords and punctuation!"
cleaned_text = clean_text(text)

print(cleaned_text)

결론

파이썬의 네이처언어 프로세싱 라이브러리를 사용하면 텍스트 전처리 작업을 효율적으로 수행할 수 있습니다. 텍스트 토큰화와 정제를 통해 텍스트 데이터를 준비하고, 이는 자연어 처리 모델링 및 분석에 유용한 전처리 단계로 활용될 수 있습니다.

참고 자료

NLTK 공식 홈페이지
Bird, Steven, Edward Loper and Ewan Klein (2009), Natural Language Processing with Python. O’Reilly Media.