[python] 판다스를 이용한 데이터 인덱싱과 슬라이싱

데이터 분석 작업을 할 때, 데이터를 정확하게 가져오고 원하는 형태로 가공하는 것이 매우 중요합니다. 이를 위해 판다스의 데이터프레임을 이용한 데이터 인덱싱과 슬라이싱 기능을 사용할 수 있습니다.

데이터프레임 생성

우선, 데이터프레임을 생성해 보겠습니다. 다음은 간단한 학생 정보를 담은 데이터프레임입니다.

import pandas as pd

data = {'이름': ['철수', '영희', '영수', '미영'],
        '성별': ['남', '여', '남', '여'],
        '나이': [25, 23, 27, 22],
        '성적': [85, 92, 78, 88]}

df = pd.DataFrame(data)
print(df)

인덱싱

열 인덱싱은 열 이름을 이용해 해당 열을 가져올 수 있습니다.

# '이름' 열 가져오기
names = df['이름']
print(names)

행 인덱싱iloc 함수를 이용해 행의 위치를 지정하여 해당 행을 가져올 수 있습니다.

# 첫 번째 행 가져오기
first_row = df.iloc[0]
print(first_row)

슬라이싱

열 슬라이싱은 열의 범위를 지정하여 해당 열들을 가져올 수 있습니다.

# '이름'부터 '나이' 열까지 가져오기
sliced_df = df.loc[:, '이름':'나이']
print(sliced_df)

행 슬라이싱iloc 함수를 이용해 행의 범위를 지정하여 해당 행들을 가져올 수 있습니다.

# 두 번째부터 세 번째 행까지 가져오기
sliced_rows = df.iloc[1:3, :]
print(sliced_rows)

이렇게 판다스를 이용하면 데이터를 더 효과적으로 다룰 수 있습니다. 데이터프레임의 행과 열을 선택하여 필요한 정보만을 추출하거나 가공하여 분석 작업에 활용할 수 있습니다.

참고 자료