[파이썬] seaborn 다변량 데이터 시각화하기

Seaborn은 파이썬의 시각화 도구 중 하나로, 주로 다변량 데이터 시각화에 사용됩니다. 이번 포스트에서는 Seaborn을 사용하여 다변량 데이터를 시각화하는 방법에 대해 알아보겠습니다.

시작하기 전에

Seaborn을 사용하기 위해 먼저 설치해야 합니다. 아래 명령을 사용하여 Seaborn을 설치하세요.

pip install seaborn

설치된 후에는 다음과 같이 라이브러리를 가져올 수 있습니다.

import seaborn as sns

Scatter Plot

Scatter plot은 두 변수간의 상관 관계를 시각화하는 데 사용됩니다. Seaborn의 scatterplot 함수를 사용하여 scatter plot을 그릴 수 있습니다.

import seaborn as sns
import matplotlib.pyplot as plt

# 데이터 준비
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

# Scatter plot 그리기
sns.scatterplot(x=x, y=y)

# 그래프 보여주기
plt.show()

Pair Plot

Pair plot은 다변량 데이터셋의 각 변수 간의 상관 관계와 분포를 한 번에 확인할 수 있습니다. Seaborn의 pairplot 함수를 사용하여 pair plot을 그릴 수 있습니다.

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# 데이터 준비
data = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [2, 4, 6, 8, 10], 'z': [3, 6, 9, 12, 15]})

# Pair plot 그리기
sns.pairplot(data)

# 그래프 보여주기
plt.show()

Heatmap

Heatmap은 다변량 데이터의 상관 관계를 시각화하는 데 사용됩니다. Seaborn의 heatmap 함수를 사용하여 heatmap을 그릴 수 있습니다.

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# 데이터 준비
data = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [2, 4, 6, 8, 10], 'z': [3, 6, 9, 12, 15]})

# Heatmap 그리기
sns.heatmap(data.corr(), annot=True)

# 그래프 보여주기
plt.show()

Conclusion

이번 포스트에서는 Seaborn을 사용하여 다변량 데이터를 시각화하는 방법을 알아보았습니다. Scatter plot, pair plot, 그리고 heatmap을 활용하여 다변량 데이터의 분포와 상관 관계를 살펴볼 수 있습니다. Seaborn의 다양한 함수를 사용하여 데이터에 맞는 적절한 시각화 방법을 선택하면 데이터를 더 쉽게 이해할 수 있습니다.