[파이썬][pandas] pandas 소개

pandas는 파이썬에서 사용되는 데이터 분석 라이브러리입니다. pandas는 데이터를 구조적으로 조작하고 분석하는 데 사용되며, 데이터 프레임 형태로 데이터를 효과적으로 처리할 수 있습니다.

pandas의 주요 기능

  1. 데이터 구조화: pandas는 주로 데이터 프레임시리즈라는 두 가지 주요 데이터 구조를 제공합니다. 데이터 프레임은 테이블 형식의 데이터를 처리할 때 주로 사용되며, 시리즈는 1차원 배열 형태의 데이터를 처리할 때 사용됩니다.

  2. 데이터 조작: pandas를 사용하면 데이터를 필터링, 정렬, 그룹화 등 다양한 방법으로 조작할 수 있습니다. 데이터의 특정 조건을 만족하는 행만 추출하거나 열을 선택하는 등의 작업이 가능합니다.

  3. 데이터 결합: pandas는 여러 데이터 프레임을 결합하거나 조인하는 기능도 제공합니다. 데이터베이스의 테이블 조인과 유사한 방식으로 데이터를 합칠 수 있습니다.

  4. 데이터 분석: pandas는 데이터에 대한 통계 분석이나 데이터 탐색 작업에도 유용합니다. 평균, 중앙값, 최댓값, 최솟값 등 다양한 통계량을 계산하거나 히스토그램, 상자 그림, 산점도 등 다양한 시각화를 생성할 수 있습니다.

pandas 설치하기

pandas를 사용하기 위해서는 먼저 파이썬 환경에 패키지를 설치해야 합니다. 아래의 명령어로 pandas를 설치할 수 있습니다:

pip install pandas

pandas 사용 예제

다음은 pandas를 사용하여 데이터 프레임을 생성하고 데이터를 조작하는 간단한 예제 코드입니다.

import pandas as pd

# 데이터 프레임 생성
data = {'Name': ['John', 'Emma', 'Liam', 'Olivia'],
        'Age': [25, 28, 23, 30],
        'City': ['Seoul', 'New York', 'London', 'Paris']}
df = pd.DataFrame(data)

# 데이터 출력
print(df)

# 나이가 25보다 큰 행만 추출
filtered_df = df[df['Age'] > 25]
print(filtered_df)

# 'City' 열을 기준으로 오름차순으로 정렬
sorted_df = df.sort_values('City')
print(sorted_df)

이 예제에서는 데이터 프레임을 생성한 후, 나이가 25보다 큰 행을 추출하고 ‘City’ 열을 기준으로 정렬하는 과정을 보여줍니다.

이처럼 pandas는 데이터를 쉽게 처리하고 분석할 수 있는 강력한 도구입니다. 데이터 분석이나 데이터 처리 작업을 하는 개발자에게는 pandas가 매우 유용한 라이브러리입니다.