[python] Seaborn을 사용한 데이터 분포 시각화

데이터 분석과 시각화는 데이터 과학에서 중요한 역할을 합니다. 데이터의 분포를 시각화 함으로써 우리는 데이터의 패턴과 특징을 파악할 수 있습니다. 이때, Seaborn은 파이썬의 데이터 시각화 라이브러리 중 하나로, 많은 기능과 예쁜 디자인으로 데이터 분포 시각화에 널리 사용됩니다.

Seaborn 설치하기

Seaborn을 사용하기 위해서는 먼저 설치를 해야합니다. 파이썬의 패키지 관리자인 pip를 사용하여 설치할 수 있습니다.

pip install seaborn

예시 데이터셋

Seaborn에는 여러 가지 내장된 예시 데이터셋이 있습니다. 이 예시 데이터셋을 활용하여 데이터 분포를 시각화해보겠습니다.

import seaborn as sns

# 내장된 타이타닉 데이터셋 로드하기
data = sns.load_dataset('titanic')

# 데이터 확인하기
print(data.head())

이 코드를 실행하면 타이타닉 데이터셋의 첫 5개의 행을 출력할 수 있습니다.

히스토그램 그리기

히스토그램은 데이터의 분포를 시각화할 때 가장 기본적인 그래프입니다. Seaborn을 사용하여 히스토그램을 그려보겠습니다.

import seaborn as sns

# 내장된 타이타닉 데이터셋 로드하기
data = sns.load_dataset('titanic')

# 나이에 대한 히스토그램 그리기
sns.histplot(data['age'])

위 코드를 실행하면 타이타닉 승객의 나이 분포를 시각화한 히스토그램이 출력됩니다.

박스 플롯 그리기

박스 플롯은 데이터의 분포를 범위, 중앙값, 이상치 등의 통계적인 정보로 요약하여 시각화한 그래프입니다. Seaborn을 사용하여 박스 플롯을 그려보겠습니다.

import seaborn as sns

# 내장된 타이타닉 데이터셋 로드하기
data = sns.load_dataset('titanic')

# 나이에 대한 박스 플롯 그리기
sns.boxplot(data=data, x='age', y='class')

위 코드를 실행하면 나이(age)에 따른 각 클래스(class)별의 박스 플롯이 출력됩니다.

참고 자료

Seaborn은 다양한 기능과 예제를 제공하고 있으므로, 자세한 내용은 공식 문서와 예제를 참고하시기 바랍니다.