한국어 불용어 제거

불용어 제거하는 방법은 다양한 접근법이 존재하며, 일반적으로는 사전에 불용어 리스트를 작성하고 해당 단어들을 제거하는 방식을 사용합니다. 아래는 불용어 제거를 위한 간단한 코드 예시입니다.

import nltk
from nltk.corpus import stopwords

def remove_stopwords(text):
    stop_words = set(stopwords.words('korean'))
    word_tokens = nltk.word_tokenize(text)
    filtered_text = [word for word in word_tokens if not word in stop_words]
    return ' '.join(filtered_text)

# 예시 텍스트
text = "저는 자연어 처리를 공부하고 있습니다."
filtered_text = remove_stopwords(text)
print(filtered_text)

위 코드에서는 NLTK(Natural Language Toolkit) 라이브러리를 사용해서 불용어 리스트를 불러온 뒤, 주어진 텍스트에서 불용어를 제거한 결과를 출력하는 함수를 정의하였습니다. 이를 사용하여 예시 텍스트에서 불용어를 제거한 후 결과를 출력하게 됩니다.

이와 같은 방법으로 불용어를 제거하여 텍스트 데이터의 처리와 분석을 효과적으로 수행할 수 있습니다.