[python] 데이터베이스 수집 및 ETL 작업
본 문서에서는 데이터베이스에서 데이터를 수집하고 ETL(추출, 변환, 적재) 작업을 수행하는 방법에 대해 알아봅니다.
목차
데이터베이스 수집
보통 Python에서는 psycopg2
나 sqlalchemy
와 같은 라이브러리를 사용해 데이터베이스에 연결하여 데이터를 수집합니다.
아래는 PostgreSQL 데이터베이스에 연결하여 데이터를 수집하는 간단한 예제 코드입니다.
import psycopg2
# 데이터베이스 연결
conn = psycopg2.connect(
dbname="mydatabase",
user="myuser",
password="mypassword",
host="localhost"
)
# 쿼리 실행
cur = conn.cursor()
cur.execute("SELECT * FROM mytable")
data = cur.fetchall()
# 연결 종료
cur.close()
conn.close()
ETL 작업
ETL은 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 과정을 말합니다. Python에서는 Pandas와 같은 라이브러리를 사용하여 ETL 작업을 수행할 수 있습니다.
아래는 데이터를 추출하고 변환하여 CSV 파일로 저장하는 간단한 예제 코드입니다.
import pandas as pd
# 데이터 추출
df = pd.DataFrame(data, columns=["col1", "col2", "col3"])
# 데이터 변환
df["new_col"] = df["col1"] + df["col2"]
# 데이터 적재
df.to_csv("output.csv", index=False)
결론
Python을 사용하여 데이터베이스에서 데이터를 수집하고 ETL 작업을 수행하는 방법을 살펴보았습니다. 데이터 수집과 ETL은 데이터 분석 및 처리에서 매우 중요한 단계이므로 Python을 통한 이러한 작업을 숙달하는 것이 중요합니다.
참고 자료
위의 링크를 통해 더 자세한 정보를 확인하실 수 있습니다.