[python] 파이썬 pandas에서 데이터를 조작하는 방법은 무엇인가요?

Pandas는 데이터 조작 및 분석을 위한 파이썬 라이브러리로, 데이터프레임(DataFrame) 구조를 기본으로 합니다. 데이터프레임은 엑셀 스프레드시트와 유사한 형태로 데이터를 저장하고 조작할 수 있는 자료구조입니다. 이번 포스트에서는 Pandas를 사용하여 데이터를 조작하는 기본적인 방법을 살펴보겠습니다.

내용

  1. 데이터프레임 생성
  2. 데이터 읽기 및 쓰기
  3. 데이터 선택 및 조작
  4. 데이터 필터링
  5. 데이터 그룹화
  6. 결측치 처리

1. 데이터프레임 생성

Pandas의 데이터프레임은 다양한 방법으로 생성할 수 있습니다. 가장 일반적인 방법은 dictionary를 사용하여 데이터프레임을 생성하는 것입니다.

import pandas as pd

data = {'이름': ['철수', '영희', '민수'],
        '나이': [25, 30, 35],
        '성별': ['남', '여', '남']}
df = pd.DataFrame(data)
print(df)

2. 데이터 읽기 및 쓰기

Pandas는 다양한 데이터 소스에서 데이터를 읽고 쓸 수 있는 기능을 제공합니다. CSV, Excel, SQL 데이터베이스, JSON 등 다양한 형식의 데이터를 읽고 쓸 수 있습니다.

# CSV 파일 읽기
df = pd.read_csv('data.csv')

# Excel 파일 쓰기
df.to_excel('output.xlsx', index=False)

3. 데이터 선택 및 조작

특정 열이나 행을 선택하거나 조작할 수 있습니다.

# 열 선택
ages = df['나이']

# 조건에 따른 데이터 업데이트
df.loc[df['나이'] > 30, '나이'] = 40

4. 데이터 필터링

특정 조건을 만족하는 데이터를 필터링할 수 있습니다.

# 나이가 30세 이상인 데이터 필터링
df_filtered = df[df['나이'] >= 30]

5. 데이터 그룹화

특정 기준에 따라 데이터를 그룹화하고 관련된 계산을 수행할 수 있습니다.

# 성별에 따른 평균 나이 계산
avg_age_by_gender = df.groupby('성별')['나이'].mean()

6. 결측치 처리

결측치를 처리하고 대체할 수 있습니다.

# 결측치를 0으로 대체
df.fillna(0, inplace=True)

Pandas를 사용하여 데이터를 조작하는 방법은 다양하며, 위에서 언급한 기능들은 그중 일부에 불과합니다. 수많은 데이터 조작 및 분석 기능이 Pandas에 내장되어 있으므로, 더 많은 기능을 습득하기 위해서는 Pandas 공식 문서를 참고하는 것이 좋습니다.