[python] 판다스를 이용한 데이터 변환과 시각화
판다스는 파이썬 프로그래밍 언어로 작성된 데이터 조작 및 분석을 위한 라이브러리입니다. 이번에는 판다스를 사용하여 데이터를 변환하고 시각화하는 방법에 대해 알아보겠습니다.
데이터 불러오기
데이터를 불러오기 위해서는 먼저 판다스 라이브러리를 임포트해야 합니다. 그런 다음에는 .read_csv()
메서드를 사용하여 CSV 파일을 데이터프레임으로 불러올 수 있습니다.
import pandas as pd
data = pd.read_csv('data.csv')
데이터 변환
열 선택
특정 열을 선택하여 보고 싶을 때는 열의 이름을 사용하여 데이터프레임에서 해당 열을 추출할 수 있습니다.
selected_column = data['column_name']
행 선택
원하는 조건을 지정하여 특정 행을 선택할 수도 있습니다.
selected_rows = data[data['column_name'] > value]
결측치 처리
결측치를 처리하기 위해서는 fillna()
메서드나 dropna()
메서드를 사용할 수 있습니다.
cleaned_data = data.dropna()
데이터 시각화
판다스는 Matplotlib 라이브러리를 기반으로 한내 데이터 시각화 기능을 제공합니다.
import matplotlib.pyplot as plt
data.plot(kind='bar', x='column_name', y='column_name')
plt.show()
결론
판다스를 이용하면 데이터를 쉽게 변환하고 시각화할 수 있으며, 데이터 분석 작업에 매우 유용합니다.
참고 문헌:
- https://pandas.pydata.org/
- https://matplotlib.org/
- McKinney, W. (2017). Python for Data Analysis. O’Reilly Media.