[파이썬] 파이썬을 이용한 데이터 분석 샘플 프로젝트

파이썬은 데이터 분석 작업을 위한 강력한 도구입니다. 데이터를 수집하고 처리하며 시각화하여 인사이트를 발견하는 것이 가능합니다. 이번 블로그에서는 파이썬을 이용한 데이터 분석의 샘플 프로젝트를 소개하겠습니다.

프로젝트 개요

이번 프로젝트에서는 한 온라인 스토어의 매출 데이터를 분석하여 판매 동향을 파악하고 예측하는 것을 목표로 합니다. 다음과 같은 데이터셋을 사용합니다.

데이터 로딩

먼저, 필요한 라이브러리를 임포트하고 데이터를 로딩하는 과정을 진행합니다.

import pandas as pd

# 데이터 로딩
data = pd.read_csv("sales_data.csv")

데이터 탐색

데이터를 로딩했으면, 데이터의 구조와 내용을 탐색하는 것이 중요합니다. 다음과 같은 방법으로 데이터를 조사할 수 있습니다.

데이터 개수 확인

# 데이터 개수 확인
num_rows, num_cols = data.shape
print("데이터 개수:", num_rows)
print("변수 개수:", num_cols)

데이터 일부 확인

# 데이터 일부 확인
head = data.head()
print(head)

변수 타입 확인

# 변수 타입 확인
types = data.dtypes
print(types)

데이터 전처리

데이터를 탐색한 후에는 필요한 전처리 작업을 수행해야 합니다. 예를 들어, 누락된 데이터를 처리하거나 범주형 변수를 숫자로 변환하는 등의 작업을 할 수 있습니다.

누락된 데이터 처리

# 누락된 데이터 확인
missing_data = data.isnull().sum()
print(missing_data)

# 누락된 데이터 제거
data = data.dropna()

범주형 변수 숫자 변환

# 범주형 변수 숫자 변환
data["제품"] = data["제품"].astype("category")
data["제품_코드"] = data["제품"].cat.codes

데이터 시각화

데이터를 시각화하여 패턴이나 관계를 파악할 수 있습니다. 다음은 한 제품의 매출 추이를 시계열 그래프로 표현하는 예시입니다.

import matplotlib.pyplot as plt

# 매출 추이 시각화
product_sales = data[data["제품"] == "A"]
product_sales_groupby_date = product_sales.groupby("주문일자")["가격"].sum()
product_sales_groupby_date.plot()
plt.xlabel("주문일자")
plt.ylabel("매출")
plt.title("제품 A의 매출 추이")
plt.show()

데이터 예측

마지막으로, 데이터를 바탕으로 예측 모델을 구축하여 미래의 판매 동향을 예측할 수 있습니다. 여기서는 간단히 선형 회귀 모델을 사용하여 제품의 매출을 예측하는 예시를 보여줍니다.

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# 학습 데이터 준비
X = data[["수량"]]
y = data["가격"]

# 학습 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

# 선형 회귀 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)

# 예측 결과 출력
y_pred = model.predict(X_test)
print("예측 결과:", y_pred)

결론

파이썬을 이용한 데이터 분석 샘플 프로젝트를 통해 데이터의 로딩, 탐색, 전처리, 시각화, 예측하는 과정을 살펴보았습니다. 이러한 과정을 통해 데이터의 인사이트를 추출하고, 이를 통해 의사 결정을 지원할 수 있습니다. 파이썬의 유연성과 다양한 라이브러리의 지원 덕분에 데이터 분석 작업은 더욱 효율적이고 간편해졌습니다.