[pandas] DataFrame 기본
DataFrame
DataFrame
은Series
의 집합으로 구성된다. 각각의column
이Series
에 해당한다. 또한 2차원이다.
Dictionary를 이용한 DataFrame 생성
dictionary의
key
값이column
이 된다. 다음의 예를 봐보자.
import numpy as np
import pandas as pd
data = {'name' : ['홍길동','김연아','홍길동','강감찬','이순신'],
'year' : [2015, 2019, 2020, 2013, 2017],
'point': [3.5, 1.5, 2.0, 3.4, 4.0] }
## DataFrame 생성
df = pd.DataFrame(data)
print(df)
## name year point
## 0 홍길동 2015 3.5
## 1 김연아 2019 1.5
## 2 홍길동 2020 2.0
## 3 강감찬 2013 3.4
## 4 이순신 2017 4.0
-
DataFrame
을 출력할때print
를 사용하면 형태가 별로 좋지 않다.jupyter notebook
에서는print
대신에display
함수를 지원해준다.display(df)
-
DataFrame
은 기본적인 크기속성shape
,size
,ndim
을 지닌다.print(df.shape) # (5, 3) print(df.size) # 15 print(df.ndim) # 2
-
DataFrame
의 구성요소index
,columns
,values
값들을 확인해 볼 수 있다.print(df.index) # RangeIndex(start=0, stop=5, step=1) print(df.columns) # Index(['name', 'year', 'point'], dtype='object') print(df.values) # [['홍길동' 2015 3.5] : 2차원 ndarray # ['김연아' 2019 1.5] # ['홍길동' 2020 2.0] # ['강감찬' 2013 3.4] # ['이순신' 2017 4.0]]
-
DataFrame
의index
와columns
에name
속성을 추가할 수 있다.df.index.name = "학번" df.columns.name = "학생정보" display(df)
CSV파일을 이용한 DataFrame 생성
csv
파일을 이용해서pandas.DataFrame
을 만들 수 있다. root directory가c:/notebook_dir
이고 data파일들을
c:/notebook_dir/data
에서 관리하므로 이 폴더안에student.csv
를 생성한다.
참고 : csv파일의 data는 ,
로 구분한다.
-
csv
파일에 다음과 같이 입력한다.이름,입합연도,성적 아이유,2015,1.5 김연아,2016,2.0 홍길동,2019,3.0 강감찬,2020,3.7 이순신,2017,3.9
-
jupyter notebook에서
csv
파일을pandas
를 이용해 불러오자.import pandas as pd df = pd.read_csv('./data/student.csv') display(df)