[파이썬] seaborn 데이터셋 분포 보기
Seaborn은 Python에서 데이터 시각화를 위한 강력한 라이브러리입니다. 이 블로그 포스트에서는 Seaborn을 사용하여 데이터셋의 분포를 시각화하는 방법을 알아보겠습니다.
데이터셋 불러오기
Seaborn에는 내장된 몇 가지 데이터셋이 있습니다. 이 예제에서는 iris
데이터셋을 사용하겠습니다. 먼저 Seaborn과 pandas
패키지를 설치하고 불러오겠습니다.
import seaborn as sns
import pandas as pd
다음으로 iris
데이터셋을 불러오고 DataFrame으로 변환하겠습니다.
iris = sns.load_dataset('iris')
분포 시각화
Seaborn을 사용하여 데이터셋의 분포를 시각화하는 방법은 여러 가지가 있습니다. 예를 들어, 히스토그램, 박스 플롯, 밀도 그래프 등을 사용할 수 있습니다.
히스토그램
히스토그램은 데이터의 분포를 막대그래프로 나타내는 방법입니다. Seaborn의 distplot
함수를 사용하여 다음과 같이 히스토그램을 그릴 수 있습니다.
sns.distplot(iris['sepal_length'])
박스 플롯
박스 플롯은 데이터의 분포와 이상치를 시각적으로 나타내는 방법입니다. Seaborn의 boxplot
함수를 사용하여 다음과 같이 박스 플롯을 그릴 수 있습니다.
sns.boxplot(x=iris['species'], y=iris['sepal_length'])
밀도 그래프
밀도 그래프는 데이터의 분포를 곡선으로 나타내는 방법입니다. Seaborn의 kdeplot
함수를 사용하여 다음과 같이 밀도 그래프를 그릴 수 있습니다.
sns.kdeplot(data=iris, x='sepal_length', hue='species', shade=True)
결론
Seaborn을 사용하여 데이터셋의 분포를 시각화하는 방법을 알아보았습니다. 히스토그램, 박스 플롯, 밀도 그래프 등을 사용하여 데이터의 분포를 쉽게 확인할 수 있습니다. Seaborn의 다양한 함수와 기능을 활용하면 더욱 다양하고 효과적인 데이터 시각화를 만들 수 있습니다.