[파이썬] pandas에서 라벨 및 위치 기반 인덱싱 (loc, iloc)
판다스(pandas)는 파이썬에서 데이터 처리와 분석을 위한 강력하고 유연한 도구입니다. 데이터를 효율적으로 조작하고 조회하는 것은 데이터 과학 및 데이터 분석 분야에서 핵심적인 요소입니다. 판다스는 이를 위해 다양한 기능을 제공하며, 그 중 라벨 및 위치 기반 인덱싱(loc, iloc)은 데이터프레임(DataFrame)의 특정 부분에 빠르게 접근하는 데 사용됩니다.
loc 인덱싱
라벨 기반 인덱싱(loc)은 데이터프레임의 라벨을 활용하여 특정 행(row) 또는 열(column)에 접근하는 방법입니다. 열은 열의 이름을 기반으로 선택하고, 행은 행의 인덱스를 기반으로 선택합니다.
import pandas as pd
# 샘플 데이터프레임 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
'Age': [25, 32, 45, 28, 30],
'City': ['New York', 'Paris', 'London', 'Tokyo', 'Sydney']}
df = pd.DataFrame(data)
# 라벨 기반 인덱싱으로 특정 행 선택
selected_row = df.loc[2] # 세 번째 행 선택
print(selected_row)
# 라벨 기반 인덱싱으로 특정 열 선택
selected_column = df.loc[:, 'City'] # 'City' 열 선택
print(selected_column)
iloc 인덱싱
위치 기반 인덱싱(iloc)은 데이터프레임의 행과 열을 0부터 시작하는 숫자 인덱스를 활용하여 선택하는 방법입니다. loc와 달리 라벨 대신 정수를 사용합니다.
import pandas as pd
# 샘플 데이터프레임 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
'Age': [25, 32, 45, 28, 30],
'City': ['New York', 'Paris', 'London', 'Tokyo', 'Sydney']}
df = pd.DataFrame(data)
# 위치 기반 인덱싱으로 특정 행 선택
selected_row = df.iloc[2] # 세 번째 행 선택
print(selected_row)
# 위치 기반 인덱싱으로 특정 열 선택
selected_column = df.iloc[:, 2] # 세 번째 열 선택
print(selected_column)
위의 예제 코드에서는 라벨 및 위치 기반 인덱싱(loc, iloc)을 사용하여 데이터프레임의 특정 행과 열을 선택하는 방법을 보여주고 있습니다. 이를 통해 판다스를 더욱 효율적으로 활용하여 데이터를 다룰 수 있습니다. 판다스에 대한 더 많은 기능을 배우고 활용한다면 데이터 처리 및 분석 작업을 더욱 쉽게 수행할 수 있을 것입니다.