[python] 판다스의 주요 데이터 구조 (시리즈, 데이터프레임)

판다스는 파이썬에서 데이터를 다루는데 유용한 라이브러리로, 주요 데이터 구조로는 시리즈(Series)데이터프레임(DataFrame)이 있습니다. 이러한 데이터 구조들은 데이터를 다루는데 매우 유용하며, 데이터를 분석하고 가공하는데 널리 사용됩니다. 이번 포스트에서는 각각의 데이터 구조에 대해 알아보겠습니다.

시리즈(Series)

시리즈(Series) 는 1차원 배열과 같은 구조를 갖고 있으며, 각각의 값은 인덱스로 식별됩니다. 예를 들어, 온도 데이터를 저장하는 시리즈를 생성한다면, 각 온도 값은 해당 날짜와 연결됩니다. 시리즈는 다음과 같이 생성할 수 있습니다.

import pandas as pd

temperature = pd.Series([25, 30, 22, 28], index=['Mon', 'Tue', 'Wed', 'Thu'])
print(temperature)

위 코드에서는 pd.Series 메소드를 사용하여 시리즈를 생성했습니다. 시리즈를 출력하면 값과 인덱스가 함께 표시됩니다.

데이터프레임(DataFrame)

데이터프레임(DataFrame) 은 2차원 배열과 같은 구조를 갖고 있으며, 여러 개의 시리즈로 구성됩니다. 데이터프레임은 행과 열의 구조를 갖고 있어, 테이블 형식의 데이터를 다루기에 적합합니다. 예를 들어, 학생의 성적을 저장하는 데이터프레임을 생성한다면, 각 행은 학생을 나타내고, 각 열은 과목을 나타냅니다. 데이터프레임은 다음과 같이 생성할 수 있습니다.

data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
        'Math': [85, 92, 78, 90],
        'English': [89, 88, 95, 82]}
df = pd.DataFrame(data)
print(df)

위 코드에서는 pd.DataFrame 메소드를 사용하여 데이터프레임을 생성했습니다. 데이터프레임을 출력하면 테이블 형식으로 데이터가 표시됩니다.

결론

판다스의 시리즈와 데이터프레임은 데이터를 다루는데 매우 효율적이고 유연한 방법을 제공합니다. 이러한 데이터 구조들을 잘 이해하고 활용한다면, 데이터 분석 및 처리 과정을 더욱 간편하게 수행할 수 있을 것입니다.

이상으로 판다스의 주요 데이터 구조에 대해 알아보았습니다. 감사합니다.

판다스 공식 문서