[파이썬] `textblob`에서 스탑워드 제거

스탑워드(stopwords)는 텍스트 마이닝에서 무시되거나 제거되어야 할 일반적인 단어들을 말합니다. 예를 들어 “and”, “the”, “is”와 같은 단어들이 스탑워드에 해당됩니다. 이러한 스탑워드들은 자연어 처리나 텍스트 분석 작업에서 중요한 정보를 제공하지 않기 때문에 제거해주는 것이 좋습니다.

Python에서 텍스트 데이터를 처리하는 작업을 할 때, textblob 패키지를 사용하면 효과적으로 스탑워드를 제거할 수 있습니다. 이번 블로그 포스트에서는 textblob 패키지를 사용하여 스탑워드를 제거하는 방법을 알아보겠습니다.

textblob 패키지 설치하기

우선, textblob 패키지를 설치해야 합니다. 아래의 명령어를 사용하여 설치해주세요.

pip install textblob

textblob를 사용하여 스탑워드 제거하기

textblob 패키지는 텍스트 데이터를 다루는데 유용한 기능들을 제공합니다. 스탑워드 제거를 위해서는 먼저 텍스트를 토큰화(tokenization)하는 작업이 필요합니다. 토큰화란 텍스트를 단어나 문장으로 나누는 작업을 말합니다.

from textblob import TextBlob

# 텍스트 데이터
text = "This is an example sentence."

# TextBlob 객체로 텍스트 생성
blob = TextBlob(text)

# 토큰화
tokens = blob.words

# 스탑워드 제거
tokens_without_stopwords = [word for word in tokens if word.lower() not in blob.stopwords]

# 결과 출력
print(tokens_without_stopwords)

위의 코드는 “This is an example sentence.”라는 텍스트에서 스탑워드를 제거하는 예제입니다. TextBlob 객체를 생성한 후, words 속성을 사용하여 토큰화한 뒤, stopwords에 속하지 않는 단어들만 추출하여 스탑워드를 제거한 결과를 출력합니다.

출력 결과는 ["example", "sentence"]가 됩니다. “This”, “is”, “an”이라는 스탑워드들이 제거되고, 의미 있는 “example”와 “sentence”만 남게 되었습니다.

결론

textblob 패키지를 사용하면 Python에서 텍스트 데이터를 처리하면서 스탑워드를 제거할 수 있습니다. 스탑워드를 제거하면 텍스트 데이터에서 중요한 정보를 추출하는데 도움이 되며, 자연어 처리나 텍스트 분석 작업에 효과적으로 활용할 수 있습니다. textblob를 사용하여 텍스트 데이터를 전처리하고 분석하는 작업에 익숙해지면 더 정확하고 유의미한 결과를 얻을 수 있을 것입니다.