파이썬을 활용한 신경망을 이용한 스팸 메일 필터링 알고리즘

10 Nov 2023

python

스팸 메일은 많은 이메일 사용자들에게 불편과 위협을 야기합니다. 이러한 스팸 메일을 필터링하여 사용자들이 정말로 읽고 싶은 메일만 받을 수 있도록 도움을 주는 것은 매우 중요합니다. 이를 위해 신경망을 사용한 스팸 메일 필터링 알고리즘을 파이썬으로 구현해보겠습니다.

신경망 알고리즘 개요

신경망 알고리즘은 뇌의 동작 원리를 모방하여 개발된 기계 학습 알고리즘입니다. 신경망은 여러 개의 뉴런으로 구성되어 있으며, 각 뉴런은 입력값을 받아 가중치와 활성화 함수를 적용하여 출력값을 계산합니다.

스팸 메일 필터링을 위한 신경망 알고리즘은 이메일의 제목, 본문 등의 텍스트 데이터를 입력으로 받아 해당 이메일이 스팸인지 아닌지를 판단하는 역할을 합니다.

필요한 라이브러리 설치

pip install numpy
pip install keras

데이터 수집 및 전처리

스팸과 햄(정상 메일)으로 구분된 이메일 데이터셋을 수집합니다. 데이터 전처리 단계에서는 이메일 텍스트 데이터를 벡터화하고 레이블을 붙여주어야 합니다.

import numpy as np
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical

spam_emails = [...] # 스팸 이메일 데이터셋
ham_emails = [...] # 햄(정상 메일) 데이터셋

# 텍스트 데이터 벡터화
tokenizer = Tokenizer()
tokenizer.fit_on_texts(spam_emails + ham_emails)
spam_sequences = tokenizer.texts_to_sequences(spam_emails)
ham_sequences = tokenizer.texts_to_sequences(ham_emails)
vocab_size = len(tokenizer.word_index)

# 시퀀스 패딩
max_sequence_length = 100
spam_sequences = pad_sequences(spam_sequences, maxlen=max_sequence_length)
ham_sequences = pad_sequences(ham_sequences, maxlen=max_sequence_length)

# 레이블 생성
spam_labels = np.ones(len(spam_sequences))
ham_labels = np.zeros(len(ham_sequences))

# 데이터셋 합치기
sequences = np.concatenate((spam_sequences, ham_sequences), axis=0)
labels = np.concatenate((spam_labels, ham_labels), axis=0)

# 레이블 원핫인코딩
labels = to_categorical(labels)

모델 구성 및 학습

from keras.models import Sequential
from keras.layers import Embedding, LSTM, Dense

model = Sequential()
model.add(Embedding(vocab_size + 1, 100, input_length=max_sequence_length))
model.add(LSTM(128))
model.add(Dense(2, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(sequences, labels, epochs=10, batch_size=32)

예측

훈련된 모델을 사용하여 새로운 이메일을 분류할 수 있습니다.

def predict_spam(email):
    sequence = tokenizer.texts_to_sequences([email])
    sequence = pad_sequences(sequence, maxlen=max_sequence_length)
    prediction = model.predict(sequence)[0]
    
    if np.argmax(prediction) == 1:
        return "스팸 메일입니다."
    else:
        return "정상 메일입니다."

email_to_check = "이것은 스팸인가요?"
prediction = predict_spam(email_to_check)
print(prediction)

결론

이렇게 파이썬을 활용하여 신경망을 이용한 스팸 메일 필터링 알고리즘을 구현해보았습니다. 신경망 알고리즘은 다양한 데이터를 학습하고 분류하는데 주로 사용되며, 스팸 메일 필터링 외에도 다양한 분야에 적용될 수 있습니다. 이를 통해 사용자들은 불필요한 스팸 메일로부터 자유로워질 수 있습니다.

해시태그: #파이썬 #신경망 #스팸메일필터링