[python] 파이썬 pandas에서 범주형 데이터를 다루는 방법은 무엇인가요?

범주형 데이터란?

범주형(categorical) 데이터는 고유한 값을 가지며 일반적으로 제한된 범위 내에서 변하는 데이터 유형을 의미합니다. 예를 들어 성별, 혈액형, 학력 수준 등이 있습니다.

범주형 데이터 다루기

판다스에서 범주형 데이터를 다루는 방법은 다음과 같습니다.

1. 범주형 데이터로 변환하기

import pandas as pd

data = pd.DataFrame({'blood_type': ['A', 'B', 'O', 'AB', 'B']})
data['blood_type'] = data['blood_type'].astype('category')

2. 카테고리 순서 지정하기

data['blood_type'] = data['blood_type'].cat.set_categories(['A', 'B', 'AB', 'O'], ordered=True)

3. 범주형 데이터 활용하기

# 범주형 데이터를 그룹화하여 통계량 계산
grouped = data.groupby('blood_type')
grouped.size()

4. 참조 테이블 활용하기

# 범주형 데이터에 레이블을 추가하여 활용
codes = {'A': 'Type A', 'B': 'Type B', 'O': 'Type O', 'AB': 'Type AB'}
data['blood_type_label'] = data['blood_type'].map(codes)

결론

판다스를 사용하여 범주형 데이터를 다루는 방법에 대해 알아보았습니다. 이를 통해 데이터를 효율적으로 처리하고 분석하는 데 도움이 될 것입니다.

더 많은 정보는 판다스 공식 문서를 참고하시기 바랍니다.