[python] 판다스를 이용한 데이터 변형과 정제

데이터 과학 및 데이터 분석 작업을 수행할 때, 데이터 정제 및 변형은 매우 중요합니다. 판다스는 파이썬에서 데이터 정제 및 변형을 용이하게 수행할 수 있는 강력한 도구입니다. 이번 블로그에서는 판다스를 사용하여 데이터를 변형하고 정제하는 방법에 대해 알아보겠습니다.

데이터 프레임 조작

판다스의 DataFrame 클래스를 사용하여 데이터를 로드하고, 분석 및 변형할 수 있습니다. 예를 들어, 다음과 같이 CSV 파일을 읽고 데이터프레임으로 변환할 수 있습니다.

import pandas as pd

# CSV 파일 읽기
data = pd.read_csv('data.csv')

# 데이터프레임 출력
print(data.head())

결측치 처리

데이터셋에는 종종 결측치가 포함되어 있는 경우가 있습니다. 판다스를 사용하면 이러한 결측치를 쉽게 처리할 수 있습니다. dropnafillna 메서드를 사용하여 결측치를 처리할 수 있습니다.

# 결측치 제거
data.dropna(inplace=True)

# 결측치 대체
data.fillna(0, inplace=True)

데이터 변형

판다스를 사용하여 데이터를 변형하고 전처리할 수 있습니다. 예를 들어, 새로운 열을 추가하거나 기존 열을 기준으로 계산된 값을 새로운 열로 추가할 수 있습니다.

# 새로운 열 추가
data['new_column'] = data['existing_column'] * 2

# 조건에 따라 값 변경
data.loc[data['age'] > 18, 'is_adult'] = True
data.loc[data['age'] <= 18, 'is_adult'] = False

데이터 그루핑

데이터를 그룹화하고 집계하는 것도 판다스를 이용하여 간단히 수행할 수 있습니다. groupby 메서드를 사용하여 데이터를 그룹화하고, agg 메서드를 사용하여 집계를 수행할 수 있습니다.

# 데이터 그룹화 및 집계
grouped_data = data.groupby('category')['value'].agg(['mean', 'sum'])
print(grouped_data)

마치며

판다스는 데이터를 변형하고 정제하는 작업을 보다 쉽게 만들어주는 강력한 도구입니다. 이를 통해 데이터 과학 및 데이터 분석 작업을 효율적으로 수행할 수 있습니다.

판다스의 다양한 기능을 유연하게 활용하여 데이터를 다양한 형태로 가공하고 분석할 수 있습니다.

참고 문헌: 판다스 공식 문서, W3Schools - Pandas

파일 수정 시 언제든 도움을 주고 싶습니다.