[pandas] DataFrame 기본

04 Dec 2020

pandas

DataFrame

DataFrame은 Series의 집합으로 구성된다. 각각의 column이 Series에 해당한다. 또한 2차원이다.

Dictionary를 이용한 DataFrame 생성

dictionary의 key값이 column이 된다. 다음의 예를 봐보자.

import numpy as np
import pandas as pd

data = {'name' : ['홍길동','김연아','홍길동','강감찬','이순신'],
        'year' : [2015, 2019, 2020, 2013, 2017],
        'point': [3.5, 1.5, 2.0, 3.4, 4.0]  }

## DataFrame 생성
df = pd.DataFrame(data)
print(df)
##  name  year  point
## 0  홍길동  2015    3.5
## 1  김연아  2019    1.5
## 2  홍길동  2020    2.0
## 3  강감찬  2013    3.4
## 4  이순신  2017    4.0  

DataFrame을 출력할때 print를 사용하면 형태가 별로 좋지 않다.

jupyter notebook에서는 print 대신에 display 함수를 지원해준다.
```
  display(df)
```

dict_dataframe

DataFrame은 기본적인 크기속성 shape, size, ndim을 지닌다.

print(df.shape)     # (5, 3)
print(df.size)	    # 15
print(df.ndim)  	# 2

DataFrame의 구성요소 index, columns, values 값들을 확인해 볼 수 있다.

print(df.index)     # RangeIndex(start=0, stop=5, step=1)
print(df.columns)   # Index(['name', 'year', 'point'], dtype='object')
print(df.values)
# [['홍길동' 2015 3.5]   : 2차원 ndarray 
#  ['김연아' 2019 1.5]
#  ['홍길동' 2020 2.0]
#  ['강감찬' 2013 3.4]
#  ['이순신' 2017 4.0]]

DataFrame의 index와 columns에 name속성을 추가할 수 있다.

df.index.name = "학번"
df.columns.name = "학생정보"
display(df)

dict_dataframe1

CSV파일을 이용한 DataFrame 생성

csv 파일을 이용해서 pandas.DataFrame을 만들 수 있다. root directory가 c:/notebook_dir

이고 data파일들을 c:/notebook_dir/data 에서 관리하므로 이 폴더안에 student.csv를 생성한다.

참고 : csv파일의 data는 `,`로 구분한다.

csv 파일에 다음과 같이 입력한다.

  이름,입합연도,성적
  아이유,2015,1.5
  김연아,2016,2.0
  홍길동,2019,3.0
  강감찬,2020,3.7
  이순신,2017,3.9

jupyter notebook에서 csv파일을 pandas를 이용해 불러오자.

import pandas as pd
  
df = pd.read_csv('./data/student.csv')
display(df)

csv_dataframe

DataFrame

Dictionary를 이용한 DataFrame 생성

CSV파일을 이용한 DataFrame 생성

참고 : csv파일의 data는 `,`로 구분한다.

참고 : 자료의 크기가 클때 `display(df.head())`와 `display(df.tail())` 을 이용해 위에서 5개, 아래에서 5개 자료를 확인할 수 있다.

Database를 이용한 DataFrame 생성

DataFrame

Dictionary를 이용한 DataFrame 생성

CSV파일을 이용한 DataFrame 생성

참고 : csv파일의 data는 ,로 구분한다.

참고 : 자료의 크기가 클때 display(df.head())와 display(df.tail()) 을 이용해 위에서 5개, 아래에서 5개 자료를 확인할 수 있다.

Database를 이용한 DataFrame 생성

참고 : csv파일의 data는 `,`로 구분한다.

참고 : 자료의 크기가 클때 `display(df.head())`와 `display(df.tail())` 을 이용해 위에서 5개, 아래에서 5개 자료를 확인할 수 있다.