파이썬 불용어 제거

22 Sep 2023

python

불용어(stop words)는 문장에서 일반적으로 사용되는 단어들로, 분석 작업을 수행할 때 불필요한 정보를 제공할 수 있습니다. 이러한 불용어를 제거하는 것은 자연어 처리와 텍스트 분석에서 일반적인 전처리 과정 중 하나입니다.

NLTK를 사용한 불용어 제거

NLTK(Natural Language Toolkit)는 파이썬에서 자연어 처리 작업을 수행하기 위한 라이브러리입니다. NLTK는 불용어 제거를 위한 편리한 기능을 제공합니다.

import nltk

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# 불용어 다운로드
nltk.download('stopwords')
nltk.download('punkt')

# 불용어 리스트 가져오기
stop_words = set(stopwords.words('english'))

# 토큰화
text = "This is an example sentence to remove the stop words."
tokens = word_tokenize(text)

# 불용어 제거
filtered_tokens = [word for word in tokens if word.casefold() not in stop_words]
filtered_text = ' '.join(filtered_tokens)

print(filtered_text)

위 코드에서는 NLTK를 사용하여 불용어 제거를 수행하는 간단한 예제입니다. stopwords와 word_tokenize를 사용하여 불용어 리스트를 가져오고, 문자열을 토큰으로 분리한 후 불용어를 제외하고 다시 합칩니다.

해당 예제에서는 영어 불용어를 제거하는 데 사용되는 stopwords.words('english')를 사용했습니다. 따라서 대상 언어에 맞는 불용어 리스트를 선택하여 사용해야 합니다.

불용어 제거는 자연어 처리 작업의 일반적인 전처리 단계 중 하나이며, 텍스트 분석에서 정확한 결과를 얻기 위해 필요합니다. NLTK를 사용하면 간단하게 불용어를 제거할 수 있으므로, 텍스트 분석 작업에 활용해보세요.

#데이터분석 #머신러닝