[python] 파이썬을 활용한 스트리밍 데이터 처리
인터넷과 모바일 디바이스의 보급으로 스트리밍 데이터의 양이 급격히 증가했습니다. 이에 따라 기존의 데이터 처리 방식은 더 이상 효과적이지 않게 되었는데, 파이썬을 사용하여 스트리밍 데이터를 효율적으로 처리하는 방법을 알아보겠습니다.
데이터 수집
스트리밍 데이터 처리의 첫 번째 단계는 데이터를 수집하는 것입니다.
데이터 수집에는 Kafka나 RabbitMQ와 같은 메시징 시스템을 활용할 수 있습니다.
아래는 Kafka를 사용한 예시 코드입니다.
from kafka import KafkaConsumer
consumer = KafkaConsumer('topic_name', bootstrap_servers='your_bootstrap_server')
for message in consumer:
print (message)
데이터 처리
파이썬의 pandas나 pyspark와 같은 라이브러리를 사용하여 스트리밍 데이터를 처리할 수 있습니다.
아래는 pandas를 사용한 예시 코드입니다.
import pandas as pd
# 데이터프레임 생성
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
'Location': ['New York', 'Paris', 'Berlin', 'London'],
'Age': [24, 13, 53, 33]}
df = pd.DataFrame(data)
# 데이터프레임 출력
print(df)
데이터 저장
마지막으로, 처리된 데이터를 저장해야 합니다.
SQLite나 MySQL와 같은 데이터베이스를 사용하여 데이터를 저장할 수 있습니다.
아래는 SQLite를 사용한 예시 코드입니다.
import sqlite3
# SQLite 데이터베이스 연결
conn = sqlite3.connect('example.db')
# 테이블 생성 및 데이터 삽입
c = conn.cursor()
c.execute('''CREATE TABLE stocks
(date text, trans text, symbol text, qty real, price real)''')
c.execute("INSERT INTO stocks VALUES ('2006-01-05','BUY','RHAT',100,35.14)")
# 변경사항 저장
conn.commit()
# 연결 종료
conn.close()
이렇게 파이썬을 활용하여 스트리밍 데이터를 수집, 처리, 저장하는 방법에 대해 알아보았습니다. 파이썬을 이용하면 효율적으로 스트리밍 데이터를 다룰 수 있으며, 데이터 기반 비즈니스에 많은 도움이 될 것입니다.
마지막으로, 이러한 기술 활용 시에는 데이터 보안과 프라이버시에 주의해야 합니다.