[파이썬] pandas에서 데이터 시각화 (plot)

데이터 시각화는 데이터를 시각적으로 표현하여 패턴이나 추세를 파악하는 데 도움을 주는 중요한 도구입니다. Python의 pandas 라이브러리는 데이터 처리와 분석을 위한 강력한 도구인데, 이 라이브러리를 사용해서 데이터 시각화를 할 수도 있습니다. 이번 블로그 포스트에서는 pandas를 사용하여 데이터를 시각화하는 여러가지 방법에 대해 알아보겠습니다.

준비 작업

pandas를 사용하기 위해서는 먼저 해당 라이브러리를 설치해야 합니다. 아래의 명령을 사용하여 설치할 수 있습니다.

pip install pandas

또한, 데이터 시각화를 위해 추가적으로 matplotlib 라이브러리도 설치해야 합니다.

pip install matplotlib

설치가 완료되었다면, 다음과 같이 pandasmatplotlib를 import합니다.

import pandas as pd
import matplotlib.pyplot as plt

데이터 준비하기

pandas를 사용하여 데이터 시각화를 하려면 먼저 데이터를 가져와야 합니다. 가상의 예제를 위해 sales.csv라는 CSV 파일을 사용해보겠습니다. 이 파일에는 다음과 같은 데이터가 들어있습니다.

date,product,sales
2021-01-01,apple,10
2021-01-02,banana,15
2021-01-03,apple,8
2021-01-04,banana,12
2021-01-05,orange,20

데이터를 가져오기 위해 다음과 같이 read_csv 함수를 사용합니다.

df = pd.read_csv('sales.csv')

선 그래프 (Line Plot)

선 그래프는 시간에 따른 데이터의 변화를 보여주는데 유용합니다. pandas에서는 plot 함수를 사용하여 선 그래프를 그릴 수 있습니다. 다음은 date를 x축으로, sales를 y축으로 하는 선 그래프를 그리는 예제입니다.

df.plot(x='date', y='sales')
plt.show()

막대 그래프 (Bar Plot)

막대 그래프는 범주별로 데이터를 비교할 때 유용합니다. pandas에서는 plot 함수의 kind 매개변수를 'bar'로 설정하여 막대 그래프를 그릴 수 있습니다. 다음은 product를 x축으로, sales를 y축으로 하는 막대 그래프를 그리는 예제입니다.

df.plot(x='product', y='sales', kind='bar')
plt.show()

원형 그래프 (Pie Chart)

원형 그래프는 전체에서 각 항목이 차지하는 비율을 보여줄 때 사용됩니다. pandas에서는 plot 함수의 kind 매개변수를 'pie'로 설정하여 원형 그래프를 그릴 수 있습니다. 다음은 product를 기준으로 각 제품의 판매량을 보여주는 원형 그래프를 그리는 예제입니다.

df.groupby('product')['sales'].sum().plot(kind='pie')
plt.show()

산점도 (Scatter Plot)

산점도는 두 변수의 상관관계를 나타내는데 사용됩니다. pandas에서는 plot 함수의 kind 매개변수를 'scatter'로 설정하여 산점도를 그릴 수 있습니다. 다음은 salesprice의 관계를 나타내는 산점도를 그리는 예제입니다.

df.plot(x='price', y='sales', kind='scatter')
plt.show()

정리

pandas는 데이터 시각화에 유용한 다양한 기능을 제공합니다. 이번 포스트에서는 선 그래프, 막대 그래프, 원형 그래프, 산점도를 예시로 들었지만, 실제로는 더 다양한 그래프를 그릴 수 있는 기능들이 존재합니다. 데이터 시각화를 통해 데이터를 더 쉽고 효과적으로 이해하고 분석할 수 있으니, pandas의 데이터 시각화 기능을 활용해 보시기 바랍니다.

참고: pandas documentation