Convolutional Neural Network를 사용한 파이썬 Sentiment analysis 모델 개발

04 Oct 2023

python

파이썬을 사용하여 Sentiment Analysis(감성 분석) 모델을 개발하는 방법에 대해 알아보겠습니다. Sentiment Analysis는 자연어 처리(Natural Language Processing) 분야에서 텍스트의 감성(positive/negative)을 분석하는 작업을 말합니다. 이번 예제에서는 Convolutional Neural Network(CNN)을 사용하여 Sentiment Analysis 모델을 구현해보겠습니다.

1. 필요한 라이브러리 설치

첫 번째 단계로, 필요한 라이브러리를 설치해야 합니다. 파이썬에서 Sentiment Analysis 모델을 개발할 때 주로 사용되는 라이브러리는 다음과 같습니다:

Keras: 딥러닝 모델을 구축하기 위한 고수준의 API를 제공하는 라이브러리입니다.
NLTK: 자연어 처리 작업을 위한 라이브러리로, Sentiment Analysis에서 텍스트 전처리 작업에 사용됩니다.
Numpy: 수치 연산을 위한 라이브러리로, 배열과 행렬 계산에 사용됩니다.

필요한 라이브러리를 설치하기 위해 다음과 같이 명령어를 실행합니다:

pip install keras nltk numpy

2. 데이터 준비 및 전처리

Sentiment Analysis 모델을 개발하기 위해 훈련 데이터와 테스트 데이터를 준비해야 합니다. 이 예제에서는 영화 리뷰 데이터셋인 IMDB 데이터셋을 사용하겠습니다. IMDB 데이터셋은 25,000개의 훈련 샘플과 25,000개의 테스트 샘플로 구성되어 있으며, 리뷰가 긍정인지 부정인지에 대한 레이블이 포함되어 있습니다.

데이터를 다운로드하고 전처리하기 위해 다음 코드를 사용할 수 있습니다:

import nltk
from nltk.corpus import stopwords
from keras.datasets import imdb
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences

nltk.download('stopwords')

# 데이터 로드
(X_train, y_train), (X_test, y_test) = imdb.load_data()

# word to index 매핑
word_index = imdb.get_word_index()

# Tokenizer를 사용하여 텍스트 전처리
tokenizer = Tokenizer(num_words=5000)
X_train = tokenizer.sequences_to_matrix(X_train, mode='binary')
X_test = tokenizer.sequences_to_matrix(X_test, mode='binary')

# Padding을 사용하여 크기를 맞춤
X_train = pad_sequences(X_train, maxlen=100)
X_test = pad_sequences(X_test, maxlen=100)

3. CNN 모델 구축

이제 CNN 모델을 구축해보겠습니다. CNN은 이미지 처리에 주로 사용되는 모델이지만, 텍스트 처리에서도 효과적으로 사용될 수 있습니다. CNN을 활용하면 텍스트의 지역 정보를 캡처하고, 특징 추출을 수행할 수 있습니다.

다음은 간단한 CNN 모델을 구축하는 예제 코드입니다:

from keras.models import Sequential
from keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense

# 모델 구축
model = Sequential()
model.add(Embedding(5000, 100, input_length=100))
model.add(Conv1D(filters=64, kernel_size=3, padding='same', activation='relu'))
model.add(GlobalMaxPooling1D())
model.add(Dense(64, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

# 모델 컴파일
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

4. 모델 훈련 및 평가

모델을 훈련하고 평가하는 단계입니다. 이 단계에서는 준비한 데이터를 사용하여 모델을 훈련하고, 그 성능을 평가합니다. 다음 코드를 사용하여 모델을 훈련하고 평가할 수 있습니다:

# 모델 훈련
model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=10, batch_size=128)

# 모델 평가
accuracy = model.evaluate(X_test, y_test)[1]
print('평가 정확도:', accuracy)

5. 결과 분석 및 개선

훈련된 모델의 결과를 분석하고 개선하는 단계입니다. 결과 분석을 통해 모델의 성능을 평가하고, 필요한 경우 하이퍼파라미터 조정이나 모델 구조 개선을 시도할 수 있습니다.

이 단계에서는 다양한 실험과 테스트를 통해 모델의 성능을 개선하는 작업을 수행할 수 있으며, 예를 들어 다음과 같은 방법들을 시도해볼 수 있습니다:

모델의 레이어 추가 또는 제거
학습률 조정
Batch 크기 변경
다른 최적화 알고리즘 사용

마무리

이제 Convolutional Neural Network(CNN)을 사용하여 파이썬에서 Sentiment Analysis 모델을 개발하는 방법에 대해 알아보았습니다. 이를 통해 텍스트 데이터의 감성을 분석하는 간단한 모델을 구축할 수 있습니다. 자연어 처리 분야에서 Sentiment Analysis는 다양한 응용 분야에 활용될 수 있으며, 더 복잡한 모델을 구축하여 더 정확한 결과를 얻을 수 있습니다.