[python] 데이터베이스 수집 및 ETL 작업

본 문서에서는 데이터베이스에서 데이터를 수집하고 ETL(추출, 변환, 적재) 작업을 수행하는 방법에 대해 알아봅니다.

목차

데이터베이스 수집

보통 Python에서는 psycopg2sqlalchemy와 같은 라이브러리를 사용해 데이터베이스에 연결하여 데이터를 수집합니다.

아래는 PostgreSQL 데이터베이스에 연결하여 데이터를 수집하는 간단한 예제 코드입니다.

import psycopg2

# 데이터베이스 연결
conn = psycopg2.connect(
    dbname="mydatabase",
    user="myuser",
    password="mypassword",
    host="localhost"
)

# 쿼리 실행
cur = conn.cursor()
cur.execute("SELECT * FROM mytable")
data = cur.fetchall()

# 연결 종료
cur.close()
conn.close()

ETL 작업

ETL은 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 과정을 말합니다. Python에서는 Pandas와 같은 라이브러리를 사용하여 ETL 작업을 수행할 수 있습니다.

아래는 데이터를 추출하고 변환하여 CSV 파일로 저장하는 간단한 예제 코드입니다.

import pandas as pd

# 데이터 추출
df = pd.DataFrame(data, columns=["col1", "col2", "col3"])

# 데이터 변환
df["new_col"] = df["col1"] + df["col2"]

# 데이터 적재
df.to_csv("output.csv", index=False)

결론

Python을 사용하여 데이터베이스에서 데이터를 수집하고 ETL 작업을 수행하는 방법을 살펴보았습니다. 데이터 수집과 ETL은 데이터 분석 및 처리에서 매우 중요한 단계이므로 Python을 통한 이러한 작업을 숙달하는 것이 중요합니다.

참고 자료

위의 링크를 통해 더 자세한 정보를 확인하실 수 있습니다.