[파이썬] pandas에서 DataFrame의 컬럼 및 인덱스

pandas는 파이썬에서 데이터 분석과 조작을 위한 강력한 라이브러리입니다. DataFrame은 pandas에서 가장 중요한 데이터 구조 중 하나로, 표 형태의 데이터를 효과적으로 다루는 데 사용됩니다. DataFrame의 컬럼 및 인덱스를 다루는 방법에 대해 알아보겠습니다.

컬럼

DataFrame의 컬럼은 데이터를 식별하는 데 사용되는 라벨입니다. 컬럼을 선택하거나 조작하는 몇 가지 방법을 살펴보겠습니다.

컬럼 선택

DataFrame에서 특정 컬럼을 선택하려면 [] 또는 .을 사용할 수 있습니다.

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'Country': ['USA', 'Canada', 'UK']}
df = pd.DataFrame(data)

# [] 연산자를 사용하여 'Name' 컬럼 선택
name_column = df['Name']
print(name_column)

# . 연산자를 사용하여 'Age' 컬럼 선택
age_column = df.Age
print(age_column)

위의 예제에서는 df['Name']df.Age로 각각 ‘Name’과 ‘Age’ 컬럼을 선택하였습니다.

컬럼 추가 및 삭제

DataFrame에 새로운 컬럼을 추가하거나 기존의 컬럼을 삭제할 수 있습니다.

# 새로운 컬럼 추가
df['Gender'] = ['Female', 'Male', 'Male']
print(df)

# 컬럼 삭제
df.drop('Gender', axis=1, inplace=True)
print(df)

위의 예제에서는 df['Gender']라는 새로운 컬럼을 추가하고, drop() 함수를 사용하여 ‘Gender’ 컬럼을 삭제하였습니다. axis=1은 컬럼을 나타냄을 의미합니다.

인덱스

DataFrame의 인덱스는 각 행(row)을 식별하는 데 사용되는 라벨입니다. 인덱스를 선택하거나 조작하는 몇 가지 방법을 살펴보겠습니다.

인덱스 선택

DataFrame에서 특정 인덱스를 선택하려면 loc[] 또는 iloc[]을 사용할 수 있습니다.

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'Country': ['USA', 'Canada', 'UK']}
df = pd.DataFrame(data)

# 'Name' 컬럼을 인덱스로 설정
df.set_index('Name', inplace=True)

# loc을 사용하여 특정 인덱스 선택
alice_data = df.loc['Alice']
print(alice_data)

# iloc을 사용하여 특정 인덱스 선택
first_row = df.iloc[0]
print(first_row)

위의 예제에서는 df.set_index('Name', inplace=True)로 ‘Name’ 컬럼을 인덱스로 설정하였습니다. 그 후 df.loc['Alice']df.iloc[0]으로 각각 ‘Alice’과 첫 번째 행을 선택하였습니다.

인덱스 재설정

DataFrame의 인덱스를 재설정하려면 reset_index() 함수를 사용할 수 있습니다.

# 인덱스 재설정
df.reset_index(inplace=True)
print(df)

위의 예제에서는 df.reset_index(inplace=True)로 인덱스를 재설정하였습니다.

pandas에서 DataFrame의 컬럼 및 인덱스 선택, 추가, 삭제, 재설정에 대한 기본적인 개념을 살펴보았습니다. 이를 통해 데이터 분석과 조작을 더욱 유연하게 수행할 수 있습니다.