[pandas] DataFrame 기본
DataFrame
DataFrame은Series의 집합으로 구성된다. 각각의column이Series에 해당한다. 또한 2차원이다.
Dictionary를 이용한 DataFrame 생성
dictionary의
key값이column이 된다. 다음의 예를 봐보자.
import numpy as np
import pandas as pd
data = {'name' : ['홍길동','김연아','홍길동','강감찬','이순신'],
'year' : [2015, 2019, 2020, 2013, 2017],
'point': [3.5, 1.5, 2.0, 3.4, 4.0] }
## DataFrame 생성
df = pd.DataFrame(data)
print(df)
## name year point
## 0 홍길동 2015 3.5
## 1 김연아 2019 1.5
## 2 홍길동 2020 2.0
## 3 강감찬 2013 3.4
## 4 이순신 2017 4.0
-
DataFrame을 출력할때print를 사용하면 형태가 별로 좋지 않다.jupyter notebook에서는print대신에display함수를 지원해준다.display(df)

-
DataFrame은 기본적인 크기속성shape,size,ndim을 지닌다.print(df.shape) # (5, 3) print(df.size) # 15 print(df.ndim) # 2 -
DataFrame의 구성요소index,columns,values값들을 확인해 볼 수 있다.print(df.index) # RangeIndex(start=0, stop=5, step=1) print(df.columns) # Index(['name', 'year', 'point'], dtype='object') print(df.values) # [['홍길동' 2015 3.5] : 2차원 ndarray # ['김연아' 2019 1.5] # ['홍길동' 2020 2.0] # ['강감찬' 2013 3.4] # ['이순신' 2017 4.0]] -
DataFrame의index와columns에name속성을 추가할 수 있다.df.index.name = "학번" df.columns.name = "학생정보" display(df)
CSV파일을 이용한 DataFrame 생성
csv파일을 이용해서pandas.DataFrame을 만들 수 있다. root directory가c:/notebook_dir이고 data파일들을
c:/notebook_dir/data에서 관리하므로 이 폴더안에student.csv를 생성한다.
참고 : csv파일의 data는 ,로 구분한다.
-
csv파일에 다음과 같이 입력한다.이름,입합연도,성적 아이유,2015,1.5 김연아,2016,2.0 홍길동,2019,3.0 강감찬,2020,3.7 이순신,2017,3.9 -
jupyter notebook에서
csv파일을pandas를 이용해 불러오자.import pandas as pd df = pd.read_csv('./data/student.csv') display(df)