[python] 판다스의 주요 데이터 구조 (시리즈, 데이터프레임)

11 Dec 2023

python

판다스는 파이썬에서 데이터를 다루는데 유용한 라이브러리로, 주요 데이터 구조로는 시리즈(Series) 와 데이터프레임(DataFrame)이 있습니다. 이러한 데이터 구조들은 데이터를 다루는데 매우 유용하며, 데이터를 분석하고 가공하는데 널리 사용됩니다. 이번 포스트에서는 각각의 데이터 구조에 대해 알아보겠습니다.

시리즈(Series)

시리즈(Series) 는 1차원 배열과 같은 구조를 갖고 있으며, 각각의 값은 인덱스로 식별됩니다. 예를 들어, 온도 데이터를 저장하는 시리즈를 생성한다면, 각 온도 값은 해당 날짜와 연결됩니다. 시리즈는 다음과 같이 생성할 수 있습니다.

import pandas as pd

temperature = pd.Series([25, 30, 22, 28], index=['Mon', 'Tue', 'Wed', 'Thu'])
print(temperature)

위 코드에서는 pd.Series 메소드를 사용하여 시리즈를 생성했습니다. 시리즈를 출력하면 값과 인덱스가 함께 표시됩니다.

데이터프레임(DataFrame)

데이터프레임(DataFrame) 은 2차원 배열과 같은 구조를 갖고 있으며, 여러 개의 시리즈로 구성됩니다. 데이터프레임은 행과 열의 구조를 갖고 있어, 테이블 형식의 데이터를 다루기에 적합합니다. 예를 들어, 학생의 성적을 저장하는 데이터프레임을 생성한다면, 각 행은 학생을 나타내고, 각 열은 과목을 나타냅니다. 데이터프레임은 다음과 같이 생성할 수 있습니다.

data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
        'Math': [85, 92, 78, 90],
        'English': [89, 88, 95, 82]}
df = pd.DataFrame(data)
print(df)

위 코드에서는 pd.DataFrame 메소드를 사용하여 데이터프레임을 생성했습니다. 데이터프레임을 출력하면 테이블 형식으로 데이터가 표시됩니다.

결론

판다스의 시리즈와 데이터프레임은 데이터를 다루는데 매우 효율적이고 유연한 방법을 제공합니다. 이러한 데이터 구조들을 잘 이해하고 활용한다면, 데이터 분석 및 처리 과정을 더욱 간편하게 수행할 수 있을 것입니다.

이상으로 판다스의 주요 데이터 구조에 대해 알아보았습니다. 감사합니다.

판다스 공식 문서