[python] Pandas의 데이터 구조

14 Dec 2023

python

Pandas는 Python에서 데이터 조작과 분석을 위한 라이브러리로, Series와 DataFrame이라는 두 가지 주요 데이터 구조를 제공합니다. 이러한 데이터 구조는 데이터를 효과적으로 조작하고 처리하는 데 유용하며, 다양한 데이터를 다루는데 적합합니다.

1. Series

Series는 1차원 배열과 유사하며, 값과 해당 값에 대한 인덱스를 포함합니다. 이러한 특징으로 데이터를 레이블링하고 쉽게 접근할 수 있게 됩니다. 다음은 Series를 생성하는 예시입니다.

import pandas as pd

data = [10, 20, 30, 40, 50]
index = ['a', 'b', 'c', 'd', 'e']

series = pd.Series(data, index=index)
print(series)

2. DataFrame

DataFrame은 표 형식의 데이터 구조로, 행과 열이 있는 2차원 배열입니다. 각 열은 서로 다른 유형의 데이터를 포함할 수 있으며, 열과 행은 각각 레이블을 가집니다. 다음은 DataFrame을 생성하는 예시입니다.

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}

df = pd.DataFrame(data)
print(df)

Pandas의 Series와 DataFrame은 다양한 데이터 조작과 분석을 지원하며, 데이터 과학 및 기계 학습 분야에서 널리 사용됩니다. 높은 수준의 성능과 편리한 기능을 제공하여 데이터 처리 작업을 간편화하는 데 기여합니다.

더 자세한 내용은 Pandas 공식 문서를 참고하십시오.