[파이썬] 파이썬을 이용한 머신러닝 샘플 프로젝트

이번 블로그 포스트에서는 파이썬을 이용하여 간단한 머신러닝 샘플 프로젝트를 만들어보고자 합니다. 이 프로젝트는 주어진 데이터를 기반으로 특정 패턴을 학습하고, 학습된 모델을 사용하여 새로운 데이터를 예측하는 과정을 다룰 것입니다.

1. 데이터 수집

머신러닝 프로젝트를 시작하기 위해서는 데이터가 필요합니다. 이 예제에서는 간단한 붓꽃(iris) 데이터셋을 사용하겠습니다.

import pandas as pd

# 데이터셋 불러오기
data = pd.read_csv('iris.csv')

# 데이터 확인하기
print(data.head())

2. 데이터 전처리

데이터를 사용하기 전에 전처리 과정을 거쳐야 합니다. 예를 들어, 범주형 데이터를 수치형 데이터로 변환하는 작업이 필요할 수 있습니다.

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

# 입력 변수와 출력 변수를 나누기
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

# 범주형 데이터를 수치형 데이터로 변환하기
encoder = LabelEncoder()
y = encoder.fit_transform(y)

# 학습 데이터와 테스트 데이터로 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

3. 모델 학습

이제 데이터 전처리가 끝났으니, 머신러닝 모델을 학습시킬 차례입니다. 이 예제에서는 사이킷런(scikit-learn) 라이브러리의 DecisionTreeClassifier를 사용하겠습니다.

from sklearn.tree import DecisionTreeClassifier

# Decision Tree 모델 생성 및 학습
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

4. 모델 평가

학습된 모델을 사용하여 예측을 수행하고, 예측 결과를 평가합니다.

from sklearn.metrics import accuracy_score

# 테스트 데이터에 대한 예측 수행
y_pred = model.predict(X_test)

# 예측 결과 평가
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

5. 새로운 데이터 예측

모델이 학습되고 평가되었으므로, 이제 새로운 데이터에 대한 예측을 수행할 수 있습니다.

# 새로운 데이터 입력
new_data = pd.DataFrame([[5.1, 3.5, 1.4, 0.2]])

# 예측 수행
prediction = model.predict(new_data)
print("Prediction:", encoder.inverse_transform(prediction))

이상으로 머신러닝 샘플 프로젝트의 전체 과정을 소개하였습니다. 파이썬을 통해 머신러닝 프로젝트를 만드는 것은 간단하면서도 효과적인 방법입니다. 이를 통해 데이터를 분석하고 예측하는 기술을 익힐 수 있으며, 복잡한 문제도 해결할 수 있을 것입니다.