이번에는 Matplotlib를 사용하여 데이터의 분포를 시각화하는 방법에 대해 알아보겠습니다. 특히, 히스토그램과 KDE(Kernel Density Estimation) 플롯을 그려보겠습니다. 이러한 플롯은 데이터의 분포를 시각적으로 파악하는 데 도움이 되므로 데이터 분석 및 시각화 작업에서 매우 유용합니다.
1. 필요한 라이브러리 설치
먼저 필요한 라이브러리를 설치해야 합니다. 아래 명령을 사용하여 Matplotlib와 NumPy를 설치합니다.
pip install matplotlib numpy
2. 데이터 준비
시각화할 데이터가 필요합니다. 이 예시에서는 NumPy를 사용하여 임의의 데이터를 생성하겠습니다.
import numpy as np
# 임의의 데이터 생성
data = np.random.randn(1000)
3. 히스토그램 그리기
Matplotlib의 hist
함수를 사용하여 히스토그램을 그릴 수 있습니다. 히스토그램은 데이터를 구간(빈(bin))으로 나누어 각 구간에 속한 값의 개수를 막대로 나타내는 그래프입니다.
import matplotlib.pyplot as plt
# 히스토그램 그리기
plt.hist(data, bins=30, color='skyblue', edgecolor='gray')
# 그래프 제목 설정
plt.title('Histogram')
# 축 레이블 설정
plt.xlabel('Value')
plt.ylabel('Frequency')
# 그래프 출력
plt.show()
위 코드에서 bins
인수는 구간(bin)의 개수를 설정합니다. color
와 edgecolor
는 각각 막대의 색상과 테두리 색상을 지정합니다.
4. KDE 플롯 그리기
이제 KDE(Kernel Density Estimation) 플롯을 그려보겠습니다. KDE 플롯은 데이터의 분포를 부드러운 곡선으로 나타내는 그래프입니다.
import seaborn as sns
# KDE 플롯 그리기
sns.kdeplot(data, color='skyblue')
# 그래프 제목 설정
plt.title('KDE Plot')
# 축 레이블 설정
plt.xlabel('Value')
plt.ylabel('Density')
# 그래프 출력
plt.show()
위 코드에서는 Seaborn 라이브러리의 kdeplot
함수를 사용하여 KDE 플롯을 그립니다. color
인수로 곡선의 색상을 설정할 수 있습니다.
이제 Matplotlib로 히스토그램과 KDE 플롯을 그리는 방법에 대해 알아보았습니다. 이러한 그래프를 사용하여 데이터의 분포를 시각화하면 데이터 분석 및 모델링 작업에서 유용한 정보를 얻을 수 있습니다.