[python] 파이썬 네이처언어 프로세싱 라이브러리를 이용한 트위터 감성 분석

소개

이번 포스트에서는 파이썬과 네이처 언어 프로세싱 라이브러리를 사용하여 트위터 감성 분석을 수행하는 방법을 알아보겠습니다.

1. 라이브러리 설치

우선, 네이처 언어 프로세싱 라이브러리인 nltk를 설치해야 합니다.

pip install nltk

2. 데이터 수집

트위터 API를 사용하여 트위터에서 감성 분석을 수행할 데이터를 수집합니다.

3. 데이터 전처리

수집한 데이터를 텍스트 전처리하여 각 단어의 토큰화 및 정제를 진행합니다.

import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

def preprocess(text):
    # 텍스트 토큰화
    tokens = word_tokenize(text)
    # 불용어 제거
    tokens = [word for word in tokens if word not in stopwords.words('english')]
    # 표제어 추출
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(word) for word in tokens]
    return ' '.join(tokens)

4. 감성 분석

nltk 라이브러리를 사용하여 텍스트의 감성을 분석합니다.

from nltk.sentiment import SentimentIntensityAnalyzer

def sentiment_analysis(text):
    analyzer = SentimentIntensityAnalyzer()
    sentiment_score = analyzer.polarity_scores(text)
    if sentiment_score['compound'] >= 0.05:
        return 'Positive'
    elif sentiment_score['compound'] <= -0.05:
        return 'Negative'
    else:
        return 'Neutral'

결론

이렇게 하여 파이썬과 네이처 언어 프로세싱 라이브러리를 사용하여 트위터 감성 분석을 수행할 수 있습니다. 이를 통해 소셜 미디어에서 사용자들의 감성을 파악하여 다양한 분야에서 활용할 수 있습니다.