[python] 파이썬 pandas에서 데이터를 처리하는 방법은 무엇인가요?

Pandas는 파이썬에서 데이터를 처리하고 분석하는 데 유용한 라이브러리입니다. 이를 사용하여 데이터를 불러오고, 정제하며, 변환할 수 있습니다.

데이터 불러오기

Pandas를 사용하여 데이터를 불러오려면 read_csv 함수를 사용합니다. 이 함수를 사용하면 CSV 파일을 DataFrame 형식으로 변환할 수 있습니다.

import pandas as pd

data = pd.read_csv('file.csv')

데이터 확인

DataFrame에 데이터를 불러온 후, head() 함수를 사용하여 처음 몇 행의 데이터를 확인할 수 있습니다.

print(data.head())

데이터 정제

Pandas를 사용하여 데이터를 정제하려면, 먼저 누락된 값이나 중복된 행을 처리해야 합니다. dropna() 함수나 drop_duplicates() 함수를 사용하여 이를 수행할 수 있습니다.

cleaned_data = data.dropna().drop_duplicates()

데이터 변환

Pandas를 사용하여 데이터를 변환하려면, 열을 추가하거나 변경할 수 있습니다. 또한, apply() 함수를 사용하여 사용자 정의 함수를 적용할 수도 있습니다.

data['new_column'] = data['existing_column'].apply(lambda x: x*2)

이처럼 Pandas를 사용하여 데이터를 처리하는 방법을 간단하게 소개해보았습니다. Pandas에 대한 더 자세한 정보는 공식 문서를 참고하세요.