[파이썬][Numpy] Scikit-Learn과의 통합 방법과 예제

24 Aug 2023

numpy

Scikit-Learn은 머신러닝과 데이터 분석을 위한 Python 라이브러리로, 다양한 머신러닝 알고리즘과 도구를 제공합니다. Scikit-Learn과 Numpy를 통합하여 데이터 전처리와 머신러닝 모델링을 수행할 수 있습니다. 아래는 Scikit-Learn과 Numpy를 함께 사용하는 예제입니다.

데이터 전처리 및 머신러닝 모델링 예제:

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 가상의 데이터 생성
X = np.random.rand(100, 2)  # 100개의 샘플과 2개의 특성
y = (X[:, 0] + X[:, 1] > 1).astype(int)  # 클래스 레이블 생성

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 데이터 표준화 (Standardization)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 로지스틱 회귀 모델 훈련
model = LogisticRegression()
model.fit(X_train_scaled, y_train)

# 테스트 데이터에 모델 적용
y_pred = model.predict(X_test_scaled)

# 모델 성능 평가
accuracy = accuracy_score(y_test, y_pred)
print("정확도:", accuracy)

위의 코드에서는 다음과 같은 작업을 수행합니다:

가상의 데이터를 생성하고 클래스 레이블을 만듭니다.
데이터를 학습 및 테스트 세트로 분할합니다.
StandardScaler를 사용하여 특성을 표준화합니다. 이것은 데이터 스케일을 조정하여 모델 학습을 돕습니다.
로지스틱 회귀 모델을 훈련합니다.
테스트 데이터에 모델을 적용하고 정확도를 계산하여 모델의 성능을 평가합니다.

Scikit-Learn은 Numpy와 통합하여 다양한 머신러닝 모델을 빠르게 구축하고 평가하는 데 유용한 도구를 제공합니다. Scikit-Learn의 공식 문서 및 다양한 예제를 통해 더 많은 정보와 사용법을 찾을 수 있습니다.