[파이썬] pandas에서 데이터 로딩 (CSV, Excel, SQL 등)

pandas는 파이썬 데이터 분석 라이브러리로, 다양한 데이터 소스에서 데이터를 로딩하고 조작하는데 사용할 수 있습니다. 이번 글에서는 pandas에서 CSV, Excel, SQL 등 다양한 데이터 소스를 로딩하는 방법에 대해 알아보겠습니다.

CSV 파일 로딩

CSV(Comma-Separated Values) 파일은 데이터를 쉼표(,)로 구분하여 저장하는 파일 형식입니다. pandas에서는 read_csv 함수를 사용하여 CSV 파일을 로딩할 수 있습니다.

import pandas as pd

df = pd.read_csv('data.csv')
print(df.head())

위 코드는 data.csv 파일을 로딩하여 DataFrame으로 변환하고, head 함수를 사용하여 처음 5개의 행을 출력하는 예제입니다.

Excel 파일 로딩

Excel 파일은 많은 사람들이 데이터를 정리하고 저장하는데 사용하는 파일 형식입니다. pandas에서는 read_excel 함수를 사용하여 Excel 파일을 로딩할 수 있습니다.

import pandas as pd

df = pd.read_excel('data.xlsx')
print(df.head())

위 코드는 data.xlsx 파일을 로딩하여 DataFrame으로 변환하고, head 함수를 사용하여 처음 5개의 행을 출력하는 예제입니다.

SQL 데이터베이스 로딩

SQL 데이터베이스는 많은 양의 데이터를 저장하고 관리하는데 사용되는 시스템입니다. pandas에서는 read_sql 함수를 사용하여 SQL 데이터베이스에서 데이터를 로딩할 수 있습니다.

import pandas as pd
import sqlite3

# SQLite 데이터베이스 연결
conn = sqlite3.connect('database.db')

# SQL 쿼리 실행하여 데이터 로딩
query = 'SELECT * FROM table_name'
df = pd.read_sql(query, conn)
print(df.head())

# 연결 종료
conn.close()

위 코드는 SQLite 데이터베이스에서 table_name 테이블의 모든 데이터를 로딩하여 DataFrame으로 변환하고, head 함수를 사용하여 처음 5개의 행을 출력하는 예제입니다. 데이터베이스 연결 후 작업이 끝나면 꼭 연결을 종료해야 합니다.

pandas를 사용하면 다양한 데이터 소스에서 데이터를 로딩하여 분석 및 가공할 수 있습니다. CSV, Excel, SQL 데이터베이스 외에도 다른 소스에서도 데이터를 로딩할 수 있는 기능들이 pandas에는 많이 제공되고 있습니다. 데이터 로딩은 데이터 분석의 첫 번째 단계이므로, pandas를 잘 활용하여 데이터를 로딩하고 분석하는 연습을 해보세요.