[python] 파이썬 pandas에서 데이터를 압축하는 방법은 무엇인가요?
가장 간단한 방법은 pandas의 to_csv
메서드를 사용하여 CSV 파일로 데이터를 저장하는 것입니다. CSV 파일은 텍스트 형식이기 때문에 자동으로 데이터를 압축하여 저장됩니다.
또 다른 방법은 to_parquet
를 사용하여 Parquet 형식으로 데이터를 저장하는 것입니다. 이 방법은 데이터를 압축하여 저장하고 읽기가 빠른 장점이 있습니다.
아래는 각 방법을 보다 자세히 설명한 것입니다:
- CSV 파일로 저장하기
import pandas as pd data = {'col1': [1, 2, 3], 'col2': ['a', 'b', 'c']} df = pd.DataFrame(data) df.to_csv('data.csv', compression='gzip') # gzip으로 압축된 CSV 파일로 저장
- Parquet 파일로 저장하기
import pandas as pd data = {'col1': [1, 2, 3], 'col2': ['a', 'b', 'c']} df = pd.DataFrame(data) df.to_parquet('data.parquet', compression='snappy') # Snappy로 압축된 Parquet 파일로 저장
위의 예제에서 compression
매개변수를 사용하여 데이터를 압축할 방법을 선택할 수 있습니다.
더불어, pandas에서는 다양한 파일 형식을 지원하므로 데이터를 압축할 수 있는 다른 방법도 있습니다.
자세한 내용은 아래 링크를 참고해 주세요: