[python] Matplotlib로 박스 플롯 도수 분포 그리기

이번에는 Python의 Matplotlib 라이브러리를 사용하여 박스 플롯 도수 분포를 그리는 방법에 대해 알아보겠습니다. Matplotlib는 데이터 시각화를 위한 강력한 도구로 널리 사용되고 있습니다. 박스 플롯은 데이터의 분포를 시각적으로 나타내는데 도움이 되며, 중앙값, 최솟값, 최댓값 등의 통계적인 정보를 한눈에 파악할 수 있습니다.

필요한 패키지 설치

먼저, Matplotlib를 사용하기 위해 아래의 명령어로 패키지를 설치해야 합니다.

pip install matplotlib

데이터 준비

박스 플롯을 그리기 위해 적절한 데이터를 준비해야 합니다. 데이터는 주로 리스트나 넘파이 배열 형태로 제공됩니다. 예를 들어, 아래와 같이 4개의 그룹으로 구성된 데이터를 준비해보겠습니다.

import numpy as np

data = [
    np.random.normal(0, 1, 100),   # 그룹 1
    np.random.normal(1, 1, 100),   # 그룹 2
    np.random.normal(2, 1, 100),   # 그룹 3
    np.random.normal(3, 1, 100)    # 그룹 4
]

박스 플롯 그리기

이제 실제로 Matplotlib를 사용하여 박스 플롯을 그려보겠습니다. 먼저, Matplotlib 패키지를 임포트합니다.

import matplotlib.pyplot as plt

그리고 plt.boxplot() 함수를 사용하여 박스 플롯을 그릴 수 있습니다.

plt.boxplot(data)
plt.xlabel('Group')
plt.ylabel('Value')
plt.title('Box Plot')
plt.show()

위의 코드에서 boxplot() 함수의 인자로 데이터를 전달해줍니다. 그리고 xlabel()ylabel() 함수를 사용하여 x축과 y축의 레이블을 설정하고, title() 함수를 사용하여 그래프의 제목을 설정합니다. 마지막으로 show() 함수로 그래프를 출력합니다.

결과 확인

위의 코드를 실행하면 박스 플롯이 그려집니다. 각 그룹의 중앙값은 중앙에 있는 가로선으로 표시되고, 최솟값과 최댓값은 박스의 위와 아래 끝에 있는 가로선으로 표시됩니다. 이를 통해 각 그룹의 분포를 비교하고 이상치를 확인할 수 있습니다.

더 많은 설정 옵션과 스타일링을 통해 박스 플롯을 다양하게 그릴 수 있으니, 필요에 따라 Matplotlib 공식 문서를 참고해보시기 바랍니다.

참고자료