[파이썬][numpy] numpy에서 메모리 매핑

05 Sep 2023

numpy

numpy는 파이썬에서 수치 계산을 위한 강력한 라이브러리입니다. 이것을 사용하면 다차원 배열을 쉽게 처리하고 수학 연산을 수행할 수 있습니다. ndarray라고 불리는 numpy의 배열은 일반적으로 메모리의 연속된 공간에 저장됩니다.

하지만 때로는 큰 배열을 다룰 때 메모리 문제가 발생할 수 있습니다. 이런 경우에는 메모리 매핑(memory mapping)을 사용하여 배열을 디스크에 저장하고 필요할 때만 필요한 부분을 메모리에 로드하는 방법이 있습니다.

메모리 매핑은 numpy의 memmap 클래스를 사용하여 구현할 수 있습니다. memmap 클래스는 일반적인 ndarray와 유사한 기능을 가지고 있으며, 배열을 파일로 저장하고 파일을 메모리에 매핑시켜 사용할 수 있습니다.

메모리 매핑 사용법

numpy의 memmap 클래스를 사용하여 배열을 메모리에 매핑하려면 다음과 같은 단계를 따릅니다.

numpy.memmap 함수를 사용하여 memmap 객체를 생성합니다.
shape, dtype, mode, offset 및 order와 같은 매개변수를 설정하여 메모리 매핑을 구성합니다.
배열에 접근하여 원하는 작업을 수행합니다.
작업이 완료되면 메모리 매핑을 해제합니다.

아래는 메모리 매핑을 사용하여 파일에서 배열을 로드하고 값을 변경한 후 파일로 다시 저장하는 예제 코드입니다.

import numpy as np

# 파일에서 배열 메모리 매핑
arr = np.memmap('data.bin', dtype='float32', mode='r+', shape=(10000,))

# 배열 값 변경
arr[0] = 1.23
arr[1:10] = 0.0

# 변경된 배열을 파일로 다시 저장
arr.flush()

# 메모리 매핑 해제
del arr

위의 예제에서는 ‘data.bin’이라는 파일을 float32 형식으로 읽고 쓰기 위해 메모리에 매핑합니다. 배열을 사용하여 값에 접근하고 변경한 후에는 flush() 메서드를 사용하여 변경 내용을 파일에 즉시 저장합니다. 마지막으로 배열을 삭제하여 메모리 매핑을 해제합니다.

메모리 매핑의 장점

메모리 매핑을 사용하면 큰 배열을 다룰 때 다음과 같은 장점을 얻을 수 있습니다.

메모리 효율성: 메모리 매핑은 디스크에 대한 실제 I/O 작업을 최소화하므로 메모리 사용량이 큰 배열을 처리할 때 메모리 효율성을 높일 수 있습니다.
빠른 접근: 메모리 매핑을 사용하면 파일 전체를 메모리에 로드하지 않고 필요한 부분만 메모리로 가져오므로 데이터에 빠르게 접근할 수 있습니다.
편리한 파일 입출력: 메모리 매핑된 배열은 파일에 직접 접근할 수 있으므로 별도의 파일 I/O 작업 없이도 배열의 값에 쉽게 접근하고 변경할 수 있습니다.

메모리 매핑은 numpy에서 메모리를 효율적으로 사용하여 큰 배열을 다루는 데 유용한 방법입니다. 이를 사용하여 메모리 제한이 있는 환경에서도 효율적으로 데이터를 처리할 수 있습니다.