[파이썬] pandas에서 히스토그램 및 박스플롯

파이썬의 데이터 분석 도구로 널리 사용되는 pandas 패키지는 히스토그램(histogram)과 박스플롯(boxplot)과 같은 다양한 시각화 기능을 제공합니다. 이러한 기능을 사용하여 데이터의 분포와 이상치를 쉽게 파악할 수 있습니다. 이번 포스트에서는 pandas에서 히스토그램과 박스플롯을 간단한 예제를 통해 살펴보겠습니다.

먼저, pandas 패키지를 설치하고 임포트합니다. 다음과 같이 코드를 작성합니다:

import pandas as pd
import matplotlib.pyplot as plt

히스토그램은 데이터의 분포를 시각화하기 위한 가장 일반적인 방법 중 하나입니다. pandas에서는 hist() 함수를 사용하여 히스토그램을 그릴 수 있습니다. 다음은 히스토그램을 그리는 간단한 예제입니다:

# 데이터프레임 생성
data = {'A': [1, 2, 3, 4, 5],
        'B': [2, 4, 6, 8, 10],
        'C': [3, 6, 9, 12, 15]}
df = pd.DataFrame(data)

# 히스토그램 그리기
df.hist()
plt.show()

위의 코드에서는 세 개의 열(A, B, C)을 가지는 데이터프레임을 생성한 후, hist() 함수를 호출하여 히스토그램을 그립니다. plt.show() 함수를 사용하여 히스토그램을 화면에 출력합니다.

다음으로, 박스플롯은 데이터의 중앙값, 사분위수, 이상치 등을 시각적으로 표현하는 방법입니다. pandas에서는 boxplot() 함수를 사용하여 박스플롯을 그릴 수 있습니다. 다음은 박스플롯을 그리는 예제입니다:

# 박스플롯 그리기
df.boxplot()
plt.show()

위의 코드에서는 이전 예제와 동일한 데이터프레임을 사용하여 boxplot() 함수를 호출하여 박스플롯을 그립니다. 마찬가지로 plt.show() 함수를 사용하여 박스플롯을 화면에 출력합니다.

히스토그램과 박스플롯은 데이터의 분포와 이상치를 시각적으로 파악하는 데 유용한 도구입니다. pandas를 사용하면 편리하고 간편하게 히스토그램과 박스플롯을 그릴 수 있으며, 데이터 분석 및 시각화에 큰 도움이 됩니다.

이상으로 pandas에서 히스토그램과 박스플롯을 다루는 예제를 살펴보았습니다. pandas의 다양한 시각화 기능을 활용하여 데이터를 효과적으로 분석하고 시각화해 보세요.