[python] 파이썬 pandas에서 범주형 데이터를 처리하는 방법은 무엇인가요?
TOC
범주형 데이터와 pandas
범주형 데이터는 고유한 값의 유한한 집합으로 표현되는 데이터를 말합니다. 이러한 데이터는 주로 카테고리, 등급, 레이블 등의 형태로 나타날 수 있습니다.
pandas는 데이터프레임과 시리즈를 통해 범주형 데이터를 처리하고 분석할 수 있습니다.
범주형 데이터 처리 방법
범주형 데이터로 변환
범주형 데이터로 변환하려는 열을 지정하여 astype
메서드를 사용하여 변환할 수 있습니다.
df['column_name'] = df['column_name'].astype('category')
범주형 데이터에 라벨 부여
cat.codes
속성을 이용하여 범주형 데이터에 라벨을 부여할 수 있습니다.
df['column_name'] = df['column_name'].cat.codes
범주형 데이터의 순서 지정
astype
메서드를 사용하여 범주형 데이터의 순서를 지정할 수 있습니다.
df['column_name'] = df['column_name'].astype('category', categories=['low', 'medium', 'high'], ordered=True)
범주형 데이터의 집계
groupby
를 이용하여 범주형 데이터를 그룹화하고 집계할 수 있습니다.
grouped = df.groupby('column_name')
grouped.size()
종합
pandas를 사용하면 데이터프레임 내의 범주형 데이터를 쉽게 처리하고 분석할 수 있습니다. 범주형 데이터를 올바르게 처리하고 활용하여 데이터 분석 작업을 보다 효율적으로 수행할 수 있습니다.