[파이썬] pandas에서 함수 체이닝

Pandas는 데이터 처리와 분석을 위한 파이썬 라이브러리입니다. 이 라이브러리는 데이터프레임(DataFrame)과 시리즈(Series)라는 자료구조를 제공하여 데이터 조작 작업을 효율적으로 처리할 수 있게 도와줍니다.

함수 체이닝(Function Chaining)은 pandas에서 매우 강력하고 유용한 기능 중 하나입니다. 이를 통해 여러 가지 데이터 처리 단계를 한 줄의 코드로 연결하여 작성할 수 있습니다. 이렇게 함으로써 코드의 가독성을 높이고, 중간 과정의 임시 변수를 생성하지 않아도 되어 메모리를 절약할 수 있습니다.

기본적인 함수 체이닝 구조

Pandas에서 함수 체이닝을 사용하기 위해서는 다음과 같은 구조를 따라야 합니다:

import pandas as pd

df = pd.DataFrame(데이터)  # 데이터프레임 생성
df = df.처리함수1().처리함수2().처리함수3()  # 함수 체이닝

처리 함수는 데이터프레임에서 원하는 작업을 수행하는 함수입니다.

함수 체이닝의 예시

데이터프레임 생성

우선 함수 체이닝을 통해 데이터프레임을 생성하는 예시를 살펴보겠습니다:

import pandas as pd

df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'],
                   'Age': [25, 30, 35],
                   'Gender': ['Female', 'Male', 'Male'],
                   'Salary': [5000, 6000, 7000]})

이 코드는 이름, 나이, 성별, 연봉을 가진 데이터프레임을 생성합니다.

함수 체이닝을 통한 데이터 처리

이제 함수 체이닝을 활용하여 데이터프레임을 처리하는 예시를 살펴보겠습니다:

df = df[df['Salary'] > 5500].sort_values('Age', ascending=False)[['Name', 'Age', 'Salary']]

위 코드는 연봉이 5500보다 높은 행을 선택하고, 나이를 기준으로 내림차순 정렬한 후, ‘Name’, ‘Age’, ‘Salary’ 열만 선택하는 작업을 한 줄의 코드로 수행합니다.

함수 체이닝의 장점

함수 체이닝은 여러 가지 장점을 가지고 있습니다:

마무리

pandas에서 함수 체이닝은 데이터 처리와 조작 작업을 효율적으로 수행할 수 있는 강력한 기능입니다. 이를 통해 코드의 가독성과 효율성을 높일 수 있으며, 유연하게 데이터를 처리할 수 있습니다. 함수 체이닝을 활용하여 데이터 분석 작업을 진행해보세요!