pandas는 파이썬에서 데이터 분석과 조작을 위한 강력한 라이브러리입니다. DataFrame은 pandas에서 가장 중요한 데이터 구조 중 하나로, 표 형태의 데이터를 효과적으로 다루는 데 사용됩니다. DataFrame의 컬럼 및 인덱스를 다루는 방법에 대해 알아보겠습니다.
컬럼
DataFrame의 컬럼은 데이터를 식별하는 데 사용되는 라벨입니다. 컬럼을 선택하거나 조작하는 몇 가지 방법을 살펴보겠습니다.
컬럼 선택
DataFrame에서 특정 컬럼을 선택하려면 []
또는 .
을 사용할 수 있습니다.
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'Country': ['USA', 'Canada', 'UK']}
df = pd.DataFrame(data)
# [] 연산자를 사용하여 'Name' 컬럼 선택
name_column = df['Name']
print(name_column)
# . 연산자를 사용하여 'Age' 컬럼 선택
age_column = df.Age
print(age_column)
위의 예제에서는 df['Name']
과 df.Age
로 각각 ‘Name’과 ‘Age’ 컬럼을 선택하였습니다.
컬럼 추가 및 삭제
DataFrame에 새로운 컬럼을 추가하거나 기존의 컬럼을 삭제할 수 있습니다.
# 새로운 컬럼 추가
df['Gender'] = ['Female', 'Male', 'Male']
print(df)
# 컬럼 삭제
df.drop('Gender', axis=1, inplace=True)
print(df)
위의 예제에서는 df['Gender']
라는 새로운 컬럼을 추가하고, drop()
함수를 사용하여 ‘Gender’ 컬럼을 삭제하였습니다. axis=1
은 컬럼을 나타냄을 의미합니다.
인덱스
DataFrame의 인덱스는 각 행(row)을 식별하는 데 사용되는 라벨입니다. 인덱스를 선택하거나 조작하는 몇 가지 방법을 살펴보겠습니다.
인덱스 선택
DataFrame에서 특정 인덱스를 선택하려면 loc[]
또는 iloc[]
을 사용할 수 있습니다.
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'Country': ['USA', 'Canada', 'UK']}
df = pd.DataFrame(data)
# 'Name' 컬럼을 인덱스로 설정
df.set_index('Name', inplace=True)
# loc을 사용하여 특정 인덱스 선택
alice_data = df.loc['Alice']
print(alice_data)
# iloc을 사용하여 특정 인덱스 선택
first_row = df.iloc[0]
print(first_row)
위의 예제에서는 df.set_index('Name', inplace=True)
로 ‘Name’ 컬럼을 인덱스로 설정하였습니다. 그 후 df.loc['Alice']
와 df.iloc[0]
으로 각각 ‘Alice’과 첫 번째 행을 선택하였습니다.
인덱스 재설정
DataFrame의 인덱스를 재설정하려면 reset_index()
함수를 사용할 수 있습니다.
# 인덱스 재설정
df.reset_index(inplace=True)
print(df)
위의 예제에서는 df.reset_index(inplace=True)
로 인덱스를 재설정하였습니다.
pandas에서 DataFrame의 컬럼 및 인덱스 선택, 추가, 삭제, 재설정에 대한 기본적인 개념을 살펴보았습니다. 이를 통해 데이터 분석과 조작을 더욱 유연하게 수행할 수 있습니다.