[python] scikit-learn을 활용한 히트맵 그리기

이번 포스트에서는 Python에서 scikit-learn 라이브러리를 활용하여 히트맵(heatmap)을 그리는 방법에 대해 알아보겠습니다. 히트맵은 데이터의 패턴이나 상관관계를 시각화하는 데 사용되며, 특히 상관관계 행렬을 표현하는 데 자주 사용됩니다.

1. 필요한 패키지 설치

히트맵을 그리기 위해 우선 scikit-learn 패키지와 그래프 플로팅을 위한 matplotlib 패키지를 설치해야 합니다. 아래의 명령어를 사용하여 패키지를 설치합니다.

pip install scikit-learn matplotlib

2. 데이터 준비하기

히트맵을 그리기 전에 사용할 데이터를 준비해야 합니다. 여기서는 scikit-learn의 내장 예제 데이터인 Iris 데이터셋을 활용하겠습니다. 아래의 코드를 사용하여 데이터를 불러옵니다.

from sklearn.datasets import load_iris

iris = load_iris()
data = iris.data

3. 히트맵 그리기

이제 데이터가 준비되었으니 히트맵을 그릴 차례입니다. 히트맵을 그리기 위해 seaborn 패키지를 사용할 수 있습니다. 아래의 코드를 사용하여 seaborn을 import합니다.

import seaborn as sns

seaborn을 import한 후에는 sns.heatmap() 함수를 사용하여 히트맵을 그릴 수 있습니다. 아래의 코드를 사용하여 데이터의 히트맵을 그립니다.

ax = sns.heatmap(data, annot=True, fmt=".1f", cmap="YlGnBu")

여기서 data는 히트맵으로 나타낼 데이터이며, annot=True는 각 셀에 숫자를 표시할지 여부를 나타냅니다. fmt=".1f"는 숫자를 소수점 첫째 자리까지 표시하도록 설정한 것입니다. cmap="YlGnBu"는 히트맵의 색상을 설정하는 부분이며, 다른 색상을 사용할 수도 있습니다.

4. 히트맵 추가 옵션

히트맵을 그릴 때 사용할 수 있는 몇 가지 추가 옵션을 소개합니다.

5. 마무리

Python에서 scikit-learn을 활용하여 히트맵을 그리는 방법에 대해 알아보았습니다. 히트맵은 데이터의 상관관계를 쉽게 파악할 수 있게 해주는 유용한 도구입니다. 응용하여 다양한 데이터를 시각화해보세요!

참고 자료