pandas는 파이썬에서 가장 널리 사용되는 데이터 분석 라이브러리 중 하나입니다. 이러한 pandas를 사용하면 쉽게 데이터를 조작하고 분석할 수 있습니다. 이번 글에서는 pandas의 DataFrame이라는 자료구조를 생성하는 방법에 대해 알아보겠습니다.
DataFrame은 테이블 형태의 데이터 구조로, 행과 열로 구성되어 있습니다. 각 열은 서로 다른 데이터 형식을 가질 수 있으며, 다양한 연산을 수행할 수 있는 유연한 자료구조입니다. 이제 DataFrame을 생성하는 여러 가지 방법을 살펴보겠습니다.
1. 딕셔너리를 사용하여 DataFrame 생성하기
가장 일반적인 DataFrame 생성 방법은 딕셔너리를 사용하는 것입니다. 딕셔너리의 각 항목은 열(column)을 나타내며, 그 값은 해당 열의 데이터를 담고 있습니다.
import pandas as pd
data = {'Name': ['John', 'Anna', 'Peter'],
'Age': [23, 30, 40],
'City': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)
위의 예제 코드에서는 Name
, Age
, City
열을 가진 DataFrame을 생성하였습니다. 각 열의 값들은 리스트 형태로 딕셔너리에 저장되어 있습니다.
2. 리스트를 사용하여 DataFrame 생성하기
또 다른 DataFrame 생성 방법은 리스트를 사용하는 것입니다. 각 리스트는 한 열의 데이터를 담고 있으며, 열의 수에 맞게 리스트의 길이가 일치해야 합니다.
import pandas as pd
names = ['John', 'Anna', 'Peter']
ages = [23, 30, 40]
cities = ['New York', 'Paris', 'London']
data = list(zip(names, ages, cities))
df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])
위의 예제 코드에서는 names
, ages
, cities
리스트를 사용하여 DataFrame을 생성하였습니다. 리스트들을 zip
함수를 사용하여 묶은 뒤, pd.DataFrame
함수를 통해 DataFrame을 생성하였습니다.
3. CSV 파일을 읽어와 DataFrame 생성하기
데이터를 분석하려면 종종 외부 데이터 파일을 사용해야 합니다. pandas는 CSV 파일을 손쉽게 읽어와 DataFrame을 생성할 수 있는 기능을 제공합니다.
import pandas as pd
df = pd.read_csv('data.csv')
위의 예제 코드에서는 data.csv
파일을 읽어와 DataFrame을 생성하였습니다. 현재 작업 디렉토리에 해당 파일이 있어야 합니다. CSV 파일에는 열의 이름이 포함되어 있어야 하며, 파일의 데이터는 쉼표(,)로 구분되어야 합니다.
이렇게 생성된 DataFrame을 통해 데이터 조작, 필터링, 시각화 등 다양한 작업을 수행할 수 있습니다. pandas의 기능은 매우 다양하므로, 자세한 사용법은 pandas 공식 문서를 참고하시기 바랍니다.