Seaborn의 데이터 분포 시각화 기능 알아보기

Seaborn은 파이썬의 데이터 시각화 라이브러리로, Matplotlib을 기반으로 다양한 테마와 간편한 사용법을 제공합니다. 이번 포스트에서는 Seaborn을 사용하여 데이터의 분포를 시각화하는 기능에 대해 알아보겠습니다.

1. 히스토그램(Histogram)

히스토그램은 데이터의 분포를 막대 그래프로 나타내는 방법입니다. Seaborn에서는 histplot() 함수를 사용하여 히스토그램을 그릴 수 있습니다. 예를 들어, 다음과 같은 코드로 난수로 생성된 100개의 데이터를 히스토그램으로 시각화할 수 있습니다.

import seaborn as sns
import numpy as np

data = np.random.randn(100)
sns.histplot(data)

2. 박스 플롯(Box Plot)

박스 플롯은 데이터의 분포를 상자와 수염으로 표현하는 방법입니다. Seaborn에서는 boxplot() 함수를 사용하여 박스 플롯을 그릴 수 있습니다. 예를 들어, 다음과 같은 코드로 난수로 생성된 두 개의 그룹 데이터를 박스 플롯으로 시각화할 수 있습니다.

import seaborn as sns
import numpy as np

group1 = np.random.randn(100)
group2 = np.random.randn(100)
data = [group1, group2]
sns.boxplot(data)

3. KDE Plot

KDE(Kernel Density Estimation) Plot은 데이터의 분포를 부드러운 곡선으로 표현하는 방법입니다. Seaborn에서는 kdeplot() 함수를 사용하여 KDE 플롯을 그릴 수 있습니다. 예를 들어, 다음과 같은 코드로 난수로 생성된 100개의 데이터를 KDE 플롯으로 시각화할 수 있습니다.

import seaborn as sns
import numpy as np

data = np.random.randn(100)
sns.kdeplot(data)

4. 산점도(Scatter Plot)

산점도는 두 개의 변수의 상관 관계를 나타내는 그래프입니다. Seaborn에서는 scatterplot() 함수를 사용하여 산점도를 그릴 수 있습니다. 예를 들어, 다음과 같은 코드로 난수로 생성된 x, y 좌표 데이터를 산점도로 시각화할 수 있습니다.

import seaborn as sns
import numpy as np

x = np.random.randn(100)
y = np.random.randn(100)
sns.scatterplot(x, y)

5. 관계 그래프(Pair Plot)

관계 그래프는 데이터의 변수들 간의 상관 관계를 한번에 시각화하는 그래프입니다. Seaborn에서는 pairplot() 함수를 사용하여 관계 그래프를 그릴 수 있습니다. 예를 들어, 다음과 같은 코드로 난수로 생성된 x, y, z 좌표 데이터를 관계 그래프로 시각화할 수 있습니다.

import seaborn as sns
import numpy as np

data = np.random.randn(100, 3)
sns.pairplot(data)

Seaborn은 다양한 데이터 분포 시각화 기능을 제공하여 데이터 분석 과정에서 유용하게 사용될 수 있습니다. 이번 포스트에서는 히스토그램, 박스 플롯, KDE 플롯, 산점도, 그리고 관계 그래프에 대해 간단히 알아보았습니다. Seaborn의 다양한 시각화 기능을 적절히 활용하면 데이터를 더욱 깊이 이해하는 데 도움이 될 것입니다.

#references