[python] 판다스(Pandas) 라이브러리 개요
목차
1. 판다스(Pandas) 소개
판다스(Pandas)는 파이썬에서 데이터 분석을 위한 라이브러리로, 데이터 조작과 분석을 위한 고수준의 자료 구조와 함수를 제공합니다. 데이터 구조와 분석 작업을 위한 다양한 기능을 제공하여 데이터 처리를 보다 편리하게 만들어 줍니다.
2. 판다스의 주요 기능
판다스의 주요 기능으로는 다음과 같은 것들이 있습니다:
- 데이터 불러오기 및 저장: 다양한 파일 형식(csv, excel, sql, json 등)의 데이터를 불러오고 저장할 수 있습니다.
- 데이터 정제 및 처리: 데이터의 결측치 처리, 이상치 제거, 데이터 형식 변경 등 다양한 데이터 정제 및 처리 작업을 수행할 수 있습니다.
- 데이터 분석: 집계, 그룹화, 변환, 시각화 등 다양한 데이터 분석 작업을 편리하게 수행할 수 있습니다.
3. 데이터프레임(DataFrame)과 시리즈(Series)
판다스에서 주요 자료 구조로는 데이터프레임(DataFrame)과 시리즈(Series)가 있습니다.
- 데이터프레임은 엑셀 시트와 같은 이차원 테이블 형태의 자료 구조입니다.
- 시리즈는 열이 하나뿐인 데이터프레임의 열이나 행을 나타내는 자료 구조입니다.
예시 코드:
import pandas as pd
# 데이터프레임 생성
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
'Age': [25, 33, 45, 28]}
df = pd.DataFrame(data)
# 시리즈 생성
s = pd.Series([1, 3, 5, 7, 9])