[python] 파이썬 pandas에서 범주형 데이터를 처리하는 방법은 무엇인가요?

TOC

범주형 데이터와 pandas

범주형 데이터는 고유한 값의 유한한 집합으로 표현되는 데이터를 말합니다. 이러한 데이터는 주로 카테고리, 등급, 레이블 등의 형태로 나타날 수 있습니다.

pandas는 데이터프레임과 시리즈를 통해 범주형 데이터를 처리하고 분석할 수 있습니다.

범주형 데이터 처리 방법

범주형 데이터로 변환

범주형 데이터로 변환하려는 열을 지정하여 astype 메서드를 사용하여 변환할 수 있습니다.

df['column_name'] = df['column_name'].astype('category')

범주형 데이터에 라벨 부여

cat.codes 속성을 이용하여 범주형 데이터에 라벨을 부여할 수 있습니다.

df['column_name'] = df['column_name'].cat.codes

범주형 데이터의 순서 지정

astype 메서드를 사용하여 범주형 데이터의 순서를 지정할 수 있습니다.

df['column_name'] = df['column_name'].astype('category', categories=['low', 'medium', 'high'], ordered=True)

범주형 데이터의 집계

groupby를 이용하여 범주형 데이터를 그룹화하고 집계할 수 있습니다.

grouped = df.groupby('column_name')
grouped.size()

종합

pandas를 사용하면 데이터프레임 내의 범주형 데이터를 쉽게 처리하고 분석할 수 있습니다. 범주형 데이터를 올바르게 처리하고 활용하여 데이터 분석 작업을 보다 효율적으로 수행할 수 있습니다.

참고 자료