데이터 시각화는 데이터를 시각적으로 표현하여 패턴이나 추세를 파악하는 데 도움을 주는 중요한 도구입니다. Python의 pandas
라이브러리는 데이터 처리와 분석을 위한 강력한 도구인데, 이 라이브러리를 사용해서 데이터 시각화를 할 수도 있습니다. 이번 블로그 포스트에서는 pandas
를 사용하여 데이터를 시각화하는 여러가지 방법에 대해 알아보겠습니다.
준비 작업
pandas
를 사용하기 위해서는 먼저 해당 라이브러리를 설치해야 합니다. 아래의 명령을 사용하여 설치할 수 있습니다.
pip install pandas
또한, 데이터 시각화를 위해 추가적으로 matplotlib
라이브러리도 설치해야 합니다.
pip install matplotlib
설치가 완료되었다면, 다음과 같이 pandas
와 matplotlib
를 import합니다.
import pandas as pd
import matplotlib.pyplot as plt
데이터 준비하기
pandas
를 사용하여 데이터 시각화를 하려면 먼저 데이터를 가져와야 합니다. 가상의 예제를 위해 sales.csv
라는 CSV 파일을 사용해보겠습니다. 이 파일에는 다음과 같은 데이터가 들어있습니다.
date,product,sales
2021-01-01,apple,10
2021-01-02,banana,15
2021-01-03,apple,8
2021-01-04,banana,12
2021-01-05,orange,20
데이터를 가져오기 위해 다음과 같이 read_csv
함수를 사용합니다.
df = pd.read_csv('sales.csv')
선 그래프 (Line Plot)
선 그래프는 시간에 따른 데이터의 변화를 보여주는데 유용합니다. pandas
에서는 plot
함수를 사용하여 선 그래프를 그릴 수 있습니다. 다음은 date
를 x축으로, sales
를 y축으로 하는 선 그래프를 그리는 예제입니다.
df.plot(x='date', y='sales')
plt.show()
막대 그래프 (Bar Plot)
막대 그래프는 범주별로 데이터를 비교할 때 유용합니다. pandas
에서는 plot
함수의 kind
매개변수를 'bar'
로 설정하여 막대 그래프를 그릴 수 있습니다. 다음은 product
를 x축으로, sales
를 y축으로 하는 막대 그래프를 그리는 예제입니다.
df.plot(x='product', y='sales', kind='bar')
plt.show()
원형 그래프 (Pie Chart)
원형 그래프는 전체에서 각 항목이 차지하는 비율을 보여줄 때 사용됩니다. pandas
에서는 plot
함수의 kind
매개변수를 'pie'
로 설정하여 원형 그래프를 그릴 수 있습니다. 다음은 product
를 기준으로 각 제품의 판매량을 보여주는 원형 그래프를 그리는 예제입니다.
df.groupby('product')['sales'].sum().plot(kind='pie')
plt.show()
산점도 (Scatter Plot)
산점도는 두 변수의 상관관계를 나타내는데 사용됩니다. pandas
에서는 plot
함수의 kind
매개변수를 'scatter'
로 설정하여 산점도를 그릴 수 있습니다. 다음은 sales
와 price
의 관계를 나타내는 산점도를 그리는 예제입니다.
df.plot(x='price', y='sales', kind='scatter')
plt.show()
정리
pandas
는 데이터 시각화에 유용한 다양한 기능을 제공합니다. 이번 포스트에서는 선 그래프, 막대 그래프, 원형 그래프, 산점도를 예시로 들었지만, 실제로는 더 다양한 그래프를 그릴 수 있는 기능들이 존재합니다. 데이터 시각화를 통해 데이터를 더 쉽고 효과적으로 이해하고 분석할 수 있으니, pandas
의 데이터 시각화 기능을 활용해 보시기 바랍니다.