[python] 파이썬을 활용한 스트리밍 데이터 처리

인터넷과 모바일 디바이스의 보급으로 스트리밍 데이터의 양이 급격히 증가했습니다. 이에 따라 기존의 데이터 처리 방식은 더 이상 효과적이지 않게 되었는데, 파이썬을 사용하여 스트리밍 데이터를 효율적으로 처리하는 방법을 알아보겠습니다.

데이터 수집

스트리밍 데이터 처리의 첫 번째 단계는 데이터를 수집하는 것입니다.

데이터 수집에는 KafkaRabbitMQ와 같은 메시징 시스템을 활용할 수 있습니다.

아래는 Kafka를 사용한 예시 코드입니다.

from kafka import KafkaConsumer

consumer = KafkaConsumer('topic_name', bootstrap_servers='your_bootstrap_server')

for message in consumer:
    print (message)

데이터 처리

파이썬의 pandaspyspark와 같은 라이브러리를 사용하여 스트리밍 데이터를 처리할 수 있습니다.

아래는 pandas를 사용한 예시 코드입니다.

import pandas as pd

# 데이터프레임 생성
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
        'Location': ['New York', 'Paris', 'Berlin', 'London'],
        'Age': [24, 13, 53, 33]}
df = pd.DataFrame(data)

# 데이터프레임 출력
print(df)

데이터 저장

마지막으로, 처리된 데이터를 저장해야 합니다.

SQLiteMySQL와 같은 데이터베이스를 사용하여 데이터를 저장할 수 있습니다.

아래는 SQLite를 사용한 예시 코드입니다.

import sqlite3

# SQLite 데이터베이스 연결
conn = sqlite3.connect('example.db')

# 테이블 생성 및 데이터 삽입
c = conn.cursor()
c.execute('''CREATE TABLE stocks
             (date text, trans text, symbol text, qty real, price real)''')
c.execute("INSERT INTO stocks VALUES ('2006-01-05','BUY','RHAT',100,35.14)")

# 변경사항 저장
conn.commit()

# 연결 종료
conn.close()

이렇게 파이썬을 활용하여 스트리밍 데이터를 수집, 처리, 저장하는 방법에 대해 알아보았습니다. 파이썬을 이용하면 효율적으로 스트리밍 데이터를 다룰 수 있으며, 데이터 기반 비즈니스에 많은 도움이 될 것입니다.

마지막으로, 이러한 기술 활용 시에는 데이터 보안과 프라이버시에 주의해야 합니다.

참고 자료