감정 분석을 통해 파악한 텍스트 데이터를 활용한 파이썬 Sentiment analysis

04 Oct 2023

python

1. 소개

감정 분석은 텍스트 데이터에 대한 감정이나 감성을 분석하는 기술로써, 해당 텍스트가 긍정적인지, 부정적인지, 또는 중립적인지 판단하는 방법입니다. 이러한 분석은 소셜 미디어, 온라인 리뷰, 문서 등 다양한 텍스트 데이터에 적용할 수 있으며, 파이썬을 사용하여 실제로 구현해볼 수 있습니다.

2. 필요한 라이브러리 설치

파이썬에서 감정 분석을 수행하기 위해서는 몇 가지 라이브러리를 설치해야 합니다. 가장 중요한 라이브러리는 다음과 같습니다:

pip install nltk
pip install sklearn

3. 데이터 전처리

감정 분석을 수행하기 전에, 텍스트 데이터를 전처리해야 합니다. 이 단계에서는 특수 문자나 숫자를 제거하고, 대문자를 소문자로 변환하는 등의 작업을 수행합니다. 또한 불용어(stopwords)를 제거해주는 것도 좋은 전처리 방법 중 하나입니다.

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

def preprocess_text(text):
    # 특수 문자 제거
    text = re.sub('[^a-zA-Z]', ' ', text)
    
    # 소문자로 변환
    text = text.lower()
    
    # 토큰화
    tokens = word_tokenize(text)
    
    # 불용어 제거
    stop_words = set(stopwords.words('english'))
    tokens = [word for word in tokens if word not in stop_words]
    
    # 표제어 추출
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(word) for word in tokens]
    
    # 전처리된 텍스트 반환
    return ' '.join(tokens)

4. 모델 학습과 예측

전처리된 텍스트 데이터를 바탕으로 감정 분석을 수행하는 모델을 학습시키고 예측하는 단계입니다. 가장 일반적으로 사용되는 알고리즘 중 하나는 Support Vector Machine(SVM)입니다. 다음은 SVM을 사용한 간단한 예제 코드입니다.

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 전처리된 텍스트 데이터 로드
data = pd.read_csv('data.csv')

# 텍스트 데이터 전처리
data['clean_text'] = data['text'].apply(preprocess_text)

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(data['clean_text'])

# 클래스 레이블 생성
labels = data['label']

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(tfidf_matrix, labels, test_size=0.2, random_state=42)

# SVM 모델 학습
model = SVC()
model.fit(X_train, y_train)

# 예측 및 성능 평가
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print("Accuracy:", accuracy)

5. 결과 해석

감정 분석 모델을 통해 예측된 결과를 해석하는 과정입니다. 일반적으로, 긍정적인 감정을 나타내는 값은 1, 부정적인 감정은 0으로 나타내는데, 이를 기준으로 예측된 값과 실제 값을 비교하여 모델의 예측력을 평가할 수 있습니다.

6. 마치며

감정 분석은 텍스트 데이터에 대한 감정이나 감성을 분석하는 기술로써, 파이썬과 관련 라이브러리를 활용하여 구현할 수 있습니다. 전처리된 텍스트 데이터를 분석 모델에 적용하여 예측하고 결과를 해석하는 방법을 익혀두면 다양한 응용 분야에서 감정 분석을 활용할 수 있을 것입니다.

#감정분석 #파이썬 #SentimentAnalysis