[파이썬] seaborn 데이터셋 분포 보기

Seaborn은 Python에서 데이터 시각화를 위한 강력한 라이브러리입니다. 이 블로그 포스트에서는 Seaborn을 사용하여 데이터셋의 분포를 시각화하는 방법을 알아보겠습니다.

데이터셋 불러오기

Seaborn에는 내장된 몇 가지 데이터셋이 있습니다. 이 예제에서는 iris 데이터셋을 사용하겠습니다. 먼저 Seaborn과 pandas 패키지를 설치하고 불러오겠습니다.

import seaborn as sns
import pandas as pd

다음으로 iris 데이터셋을 불러오고 DataFrame으로 변환하겠습니다.

iris = sns.load_dataset('iris')

분포 시각화

Seaborn을 사용하여 데이터셋의 분포를 시각화하는 방법은 여러 가지가 있습니다. 예를 들어, 히스토그램, 박스 플롯, 밀도 그래프 등을 사용할 수 있습니다.

히스토그램

히스토그램은 데이터의 분포를 막대그래프로 나타내는 방법입니다. Seaborn의 distplot 함수를 사용하여 다음과 같이 히스토그램을 그릴 수 있습니다.

sns.distplot(iris['sepal_length'])

박스 플롯

박스 플롯은 데이터의 분포와 이상치를 시각적으로 나타내는 방법입니다. Seaborn의 boxplot 함수를 사용하여 다음과 같이 박스 플롯을 그릴 수 있습니다.

sns.boxplot(x=iris['species'], y=iris['sepal_length'])

밀도 그래프

밀도 그래프는 데이터의 분포를 곡선으로 나타내는 방법입니다. Seaborn의 kdeplot 함수를 사용하여 다음과 같이 밀도 그래프를 그릴 수 있습니다.

sns.kdeplot(data=iris, x='sepal_length', hue='species', shade=True)

결론

Seaborn을 사용하여 데이터셋의 분포를 시각화하는 방법을 알아보았습니다. 히스토그램, 박스 플롯, 밀도 그래프 등을 사용하여 데이터의 분포를 쉽게 확인할 수 있습니다. Seaborn의 다양한 함수와 기능을 활용하면 더욱 다양하고 효과적인 데이터 시각화를 만들 수 있습니다.