[python] 파이썬 pandas에서 데이터를 압축하는 방법은 무엇인가요?

20 Dec 2023

python

가장 간단한 방법은 pandas의 to_csv 메서드를 사용하여 CSV 파일로 데이터를 저장하는 것입니다. CSV 파일은 텍스트 형식이기 때문에 자동으로 데이터를 압축하여 저장됩니다.

또 다른 방법은 to_parquet를 사용하여 Parquet 형식으로 데이터를 저장하는 것입니다. 이 방법은 데이터를 압축하여 저장하고 읽기가 빠른 장점이 있습니다.

아래는 각 방법을 보다 자세히 설명한 것입니다:

CSV 파일로 저장하기

 import pandas as pd
 data = {'col1': [1, 2, 3], 'col2': ['a', 'b', 'c']}
 df = pd.DataFrame(data)
 df.to_csv('data.csv', compression='gzip')  # gzip으로 압축된 CSV 파일로 저장

Parquet 파일로 저장하기

 import pandas as pd
 data = {'col1': [1, 2, 3], 'col2': ['a', 'b', 'c']}
 df = pd.DataFrame(data)
 df.to_parquet('data.parquet', compression='snappy')  # Snappy로 압축된 Parquet 파일로 저장

위의 예제에서 compression 매개변수를 사용하여 데이터를 압축할 방법을 선택할 수 있습니다.

더불어, pandas에서는 다양한 파일 형식을 지원하므로 데이터를 압축할 수 있는 다른 방법도 있습니다.

자세한 내용은 아래 링크를 참고해 주세요: