[파이썬][리스트] 리스트를 활용하여 특성 벡터를 구성하고 AI 머신러닝 모델에 적용하는 방법과 예제

22 Aug 2023

python

리스트를 활용하여 특성 벡터를 구성하고 AI 머신러닝 모델에 적용하는 방법은 데이터를 처리하고 모델에 입력으로 제공하는 과정을 의미합니다. 아래는 이러한 방법을 설명하는 예제입니다.

예제: 특성 벡터를 구성하고 모델에 적용하기

가상의 데이터셋을 생성하고, 이를 특성 벡터로 변환한 다음, 간단한 머신러닝 모델에 적용하는 예제를 보여드리겠습니다. 이 예제에서는 scikit-learn 라이브러리를 사용합니다.

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 가상의 데이터셋 생성
data = [
    {"age": 25, "income": 50000, "gender": "male"},
    {"age": 30, "income": 60000, "gender": "female"},
    {"age": 35, "income": 75000, "gender": "male"},
    # 나머지 데이터 포인트 추가
]

# 특성 벡터 생성
X = []
y = []
for sample in data:
    age = sample["age"]
    income = sample["income"]
    gender = 1 if sample["gender"] == "male" else 0  # 범주형 데이터를 이진화
    feature_vector = [age, income, gender]
    X.append(feature_vector)
    # 결과값(y)에 해당하는 데이터도 추가 (분류 문제의 경우)
    # y.append(sample["target"])

# 데이터를 훈련 세트와 테스트 세트로 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 머신러닝 모델 생성 및 훈련
model = LogisticRegression()
model.fit(X_train, y_train)

# 모델 평가
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("모델 정확도:", accuracy)

위의 예제에서는 다음과 같은 단계를 따릅니다:

데이터를 가상으로 생성하고, 각 데이터 포인트를 특성 벡터로 변환합니다. 이 예제에서는 연령(age), 소득(income), 성별(gender) 정보를 사용합니다.
데이터를 훈련 세트와 테스트 세트로 분리합니다.
scikit-learn을 사용하여 로지스틱 회귀 모델을 생성하고 훈련합니다.
모델을 사용하여 테스트 데이터에 대한 예측을 수행하고 모델 정확도를 평가합니다.

이와 같이 리스트로부터 특성 벡터를 생성하고 머신러닝 모델에 적용하는 방법을 사용하여 데이터 분석 및 머신러닝 모델링을 수행할 수 있습니다. 데이터와 모델 종류에 따라 데이터 전처리 및 모델 선택이 달라질 수 있으므로 실제 작업에 맞게 수정할 필요가 있습니다.