[파이썬] 데이터 시각화와 분류

01 Sep 2023

python

데이터 시각화와 분류는 데이터 과학과 머신 러닝에서 중요한 개념입니다. 데이터 시각화는 데이터를 시각적으로 표현하여 인사이트를 얻는 것을 말하며, 분류는 데이터를 특정 카테고리로 분류하는 작업을 의미합니다. 이번 블로그 포스트에서는 파이썬을 사용하여 데이터 시각화와 분류를 처리하는 방법에 대해 알아보겠습니다.

1. 데이터 시각화

1.1. Matplotlib

Matplotlib는 파이썬의 가장 인기 있는 시각화 도구 중 하나입니다. 아래는 간단한 선 그래프를 그리는 예제입니다:

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

plt.plot(x, y)
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Simple Line Plot')
plt.show()

1.2. Seaborn

Seaborn은 Matplotlib의 확장된 버전으로, 보다 인상적이고 시각화적으로 매력적인 그래프를 만들 수 있습니다. 아래는 히트맵을 그리는 예제입니다:

import seaborn as sns
import numpy as np

data = np.random.rand(10, 10)
sns.heatmap(data, annot=True, cmap='YlGnBu')
plt.title('Heatmap Example')
plt.show()

2. 데이터 분류

2.1. Scikit-learn

Scikit-learn은 파이썬의 머신 러닝 라이브러리로, 다양한 분류 알고리즘을 제공합니다. 아래는 로지스틱 회귀 모델을 사용하여 붓꽃 데이터를 분류하는 예제입니다:

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

iris_data = load_iris()
X = iris_data.data
y = iris_data.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LogisticRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print('Accuracy:', accuracy)

마치며

이번 블로그 포스트에서는 파이썬을 사용하여 데이터 시각화와 분류를 처리하는 방법을 알아보았습니다. Matplotlib과 Seaborn을 사용하여 데이터를 시각화하고, Scikit-learn을 사용하여 데이터를 분류하는 예제를 살펴보았습니다. 데이터 시각화와 분류는 데이터 과학과 머신 러닝의 핵심 기술이므로, 관련 기술을 익히는 것은 중요합니다. 파이썬을 이용한 데이터 시각화와 분류를 연습해보면 데이터에 대한 통찰력을 개발하고 예측 모델을 개선할 수 있습니다.