[python] DataFrame과 Series의 차이점

Python의 pandas 라이브러리에서 많이 사용되는 자료 구조로는 DataFrameSeries가 있다. 둘 다 데이터를 다루는 데 있어 유용하지만, 그들 간에는 몇 가지 중요한 차이점이 있다.

Series

Series는 일련의 값들을 담고 있는 1차원 자료 구조이다. 간단하게 말하면, 1차원 배열 또는 리스트와 같다. 각 값은 index에 의해 레이블링되어 있으며, 파이썬의 리스트와 유사한데다 인덱싱, 슬라이싱, 연산 등 데이터 조작이 용이하다.

import pandas as pd

# Create a Series
s = pd.Series([1, 3, 5, 7])

print(s)

DataFrame

DataFrame은 2차원의 자료 구조로, Table 또는 Spreadsheet와 비슷하다. 행과 열이 존재하며, 각 열은 Series로 이뤄져 있다. DataFrame은 여러 열이 Series로 이뤄져 있기 때문에, Series의 집합체로 생각할 수 있다.

# Create a DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40]}
df = pd.DataFrame(data)

print(df)

두 자료 구조의 가장 큰 차이점은 차원과 구조이다. Series는 1차원이고 단일 열이라면, DataFrame은 2차원이고 다중 열로 구성되어 있다.

더 자세한 내용은 pandas 공식 문서를 참고할 수 있다.