메모리 사용량을 최소화하는 파이썬 데이터 처리 패턴 및 기법

01 Oct 2023

많은 데이터를 처리해야 할 때, 메모리 사용량은 항상 고려해야 할 중요한 요소입니다. 특히 파이썬은 동적 타이핑 언어로서 메모리를 다소 낭비할 수 있습니다. 따라서 메모리 사용량을 최소화하는 데이터 처리 패턴과 기법을 알아보겠습니다.

1. 제너레이터 사용하기

파이썬에서 제너레이터(generator)는 반복자(iterator)와 같은 역할을 합니다. 제너레이터는 한 번에 모든 데이터를 메모리에 로드하지 않고, 필요할 때마다 데이터를 생성하여 메모리 사용량을 크게 줄일 수 있습니다.

def process_data():
    for item in data_source:
        # 데이터 처리 로직
        yield processed_item

위의 코드에서 process_data 함수는 제너레이터로 정의되었습니다. yield 키워드를 사용하여 한 번에 하나의 데이터를 반환하고, 다음 데이터를 생성하는 방식입니다.

데이터를 반복적으로 처리해야 할 때, 반복문과 제너레이터 표현식을 조합하여 메모리 사용량을 최소화할 수 있습니다.

for item in (processed_item for item in data_source):
    # 데이터 처리 로직

위의 코드에서 (processed_item for item in data_source) 부분은 제너레이터 표현식으로, 반복문이 실행될 때마다 한 번에 하나의 데이터를 생성합니다.

파이썬에서는 memoryview 객체를 이용하여 데이터를 읽고 쓰는 것이 가능합니다. 이를 활용하여 큰 데이터의 일부분만 메모리에 로드하여 처리할 수 있습니다.

buffer = bytearray(data)
view = memoryview(buffer)
for i in range(len(view)):
    # 데이터 처리 로직
    processed_item = view[i]

위의 코드에서 memoryview 함수는 바이트 배열에 대한 메모리 뷰를 생성합니다. 이를 활용하면 데이터를 청크(chunk) 단위로 처리할 수 있으며, 메모리를 효율적으로 사용할 수 있습니다.

메모리 사용량을 최소화하는 또 다른 방법은 데이터를 압축하는 것입니다. 파이썬에서는 zlib 모듈을 사용하여 데이터를 압축할 수 있습니다. 압축된 데이터를 처리하고 필요한 경우에만 압축을 풀어서 사용하면 메모리 사용량을 줄일 수 있습니다.

import zlib

compressed_data = zlib.compress(data)
for chunk in compressed_data:
    # 압축된 데이터 처리 로직
    processed_chunk = chunk

위의 코드에서 zlib.compress 함수를 사용하여 데이터를 압축하고, 압축된 데이터를 청크 단위로 처리하는 방식입니다.

위에서 소개한 메모리 사용량을 최소화하는 데이터 처리 패턴과 기법을 활용하면, 대용량 데이터를 효율적으로 처리할 수 있으며, 메모리 사용량을 최소화할 수 있습니다.

#python #데이터처리 #메모리사용량 #파이썬