[python] 판다스를 이용한 데이터 인덱싱과 슬라이싱
데이터 분석 작업을 할 때, 데이터를 정확하게 가져오고 원하는 형태로 가공하는 것이 매우 중요합니다. 이를 위해 판다스의 데이터프레임을 이용한 데이터 인덱싱과 슬라이싱 기능을 사용할 수 있습니다.
데이터프레임 생성
우선, 데이터프레임을 생성해 보겠습니다. 다음은 간단한 학생 정보를 담은 데이터프레임입니다.
import pandas as pd
data = {'이름': ['철수', '영희', '영수', '미영'],
'성별': ['남', '여', '남', '여'],
'나이': [25, 23, 27, 22],
'성적': [85, 92, 78, 88]}
df = pd.DataFrame(data)
print(df)
인덱싱
열 인덱싱은 열 이름을 이용해 해당 열을 가져올 수 있습니다.
# '이름' 열 가져오기
names = df['이름']
print(names)
행 인덱싱은 iloc
함수를 이용해 행의 위치를 지정하여 해당 행을 가져올 수 있습니다.
# 첫 번째 행 가져오기
first_row = df.iloc[0]
print(first_row)
슬라이싱
열 슬라이싱은 열의 범위를 지정하여 해당 열들을 가져올 수 있습니다.
# '이름'부터 '나이' 열까지 가져오기
sliced_df = df.loc[:, '이름':'나이']
print(sliced_df)
행 슬라이싱은 iloc
함수를 이용해 행의 범위를 지정하여 해당 행들을 가져올 수 있습니다.
# 두 번째부터 세 번째 행까지 가져오기
sliced_rows = df.iloc[1:3, :]
print(sliced_rows)
이렇게 판다스를 이용하면 데이터를 더 효과적으로 다룰 수 있습니다. 데이터프레임의 행과 열을 선택하여 필요한 정보만을 추출하거나 가공하여 분석 작업에 활용할 수 있습니다.