Pandas는 데이터 처리와 분석을 위한 파이썬 라이브러리입니다. 이 라이브러리는 데이터프레임(DataFrame)과 시리즈(Series)라는 자료구조를 제공하여 데이터 조작 작업을 효율적으로 처리할 수 있게 도와줍니다.
함수 체이닝(Function Chaining)은 pandas에서 매우 강력하고 유용한 기능 중 하나입니다. 이를 통해 여러 가지 데이터 처리 단계를 한 줄의 코드로 연결하여 작성할 수 있습니다. 이렇게 함으로써 코드의 가독성을 높이고, 중간 과정의 임시 변수를 생성하지 않아도 되어 메모리를 절약할 수 있습니다.
기본적인 함수 체이닝 구조
Pandas에서 함수 체이닝을 사용하기 위해서는 다음과 같은 구조를 따라야 합니다:
import pandas as pd
df = pd.DataFrame(데이터) # 데이터프레임 생성
df = df.처리함수1().처리함수2().처리함수3() # 함수 체이닝
처리 함수는 데이터프레임에서 원하는 작업을 수행하는 함수입니다.
함수 체이닝의 예시
데이터프레임 생성
우선 함수 체이닝을 통해 데이터프레임을 생성하는 예시를 살펴보겠습니다:
import pandas as pd
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'Gender': ['Female', 'Male', 'Male'],
'Salary': [5000, 6000, 7000]})
이 코드는 이름, 나이, 성별, 연봉을 가진 데이터프레임을 생성합니다.
함수 체이닝을 통한 데이터 처리
이제 함수 체이닝을 활용하여 데이터프레임을 처리하는 예시를 살펴보겠습니다:
df = df[df['Salary'] > 5500].sort_values('Age', ascending=False)[['Name', 'Age', 'Salary']]
위 코드는 연봉이 5500보다 높은 행을 선택하고, 나이를 기준으로 내림차순 정렬한 후, ‘Name’, ‘Age’, ‘Salary’ 열만 선택하는 작업을 한 줄의 코드로 수행합니다.
함수 체이닝의 장점
함수 체이닝은 여러 가지 장점을 가지고 있습니다:
- 가독성: 코드를 한 줄로 작성하므로 코드의 가독성이 높아집니다.
- 효율성: 중간 과정의 임시 변수를 생성하지 않아도 되므로 메모리를 절약할 수 있습니다.
- 유연성: 함수 체이닝을 통해 여러 단계의 데이터 처리 작업을 유연하게 조합할 수 있습니다.
마무리
pandas에서 함수 체이닝은 데이터 처리와 조작 작업을 효율적으로 수행할 수 있는 강력한 기능입니다. 이를 통해 코드의 가독성과 효율성을 높일 수 있으며, 유연하게 데이터를 처리할 수 있습니다. 함수 체이닝을 활용하여 데이터 분석 작업을 진행해보세요!