[python] 판다스를 이용한 데이터 변환과 시각화

판다스는 파이썬 프로그래밍 언어로 작성된 데이터 조작 및 분석을 위한 라이브러리입니다. 이번에는 판다스를 사용하여 데이터를 변환하고 시각화하는 방법에 대해 알아보겠습니다.

데이터 불러오기

데이터를 불러오기 위해서는 먼저 판다스 라이브러리를 임포트해야 합니다. 그런 다음에는 .read_csv() 메서드를 사용하여 CSV 파일을 데이터프레임으로 불러올 수 있습니다.

import pandas as pd

data = pd.read_csv('data.csv')

데이터 변환

열 선택

특정 열을 선택하여 보고 싶을 때는 열의 이름을 사용하여 데이터프레임에서 해당 열을 추출할 수 있습니다.

selected_column = data['column_name']

행 선택

원하는 조건을 지정하여 특정 행을 선택할 수도 있습니다.

selected_rows = data[data['column_name'] > value]

결측치 처리

결측치를 처리하기 위해서는 fillna() 메서드나 dropna() 메서드를 사용할 수 있습니다.

cleaned_data = data.dropna()

데이터 시각화

판다스는 Matplotlib 라이브러리를 기반으로 한내 데이터 시각화 기능을 제공합니다.

import matplotlib.pyplot as plt

data.plot(kind='bar', x='column_name', y='column_name')
plt.show()

결론

판다스를 이용하면 데이터를 쉽게 변환하고 시각화할 수 있으며, 데이터 분석 작업에 매우 유용합니다.

참고 문헌:

  1. https://pandas.pydata.org/
  2. https://matplotlib.org/
  3. McKinney, W. (2017). Python for Data Analysis. O’Reilly Media.