[python] 데이터 중복 처리하기
이 포스트에서는 Python을 사용하여 데이터프레임에서 중복된 데이터를 처리하는 방법에 대해 알아보겠습니다.
1. 중복된 데이터 확인하기
가장 먼저 데이터프레임에서 중복된 데이터를 확인해야 합니다. 아래의 코드를 사용하여 중복된 행을 확인할 수 있습니다.
import pandas as pd
# 데이터프레임 생성
data = {'이름': ['홍길동', '김철수', '홍길동', '이영희', '박영수'],
'나이': [25, 30, 25, 28, 32]}
df = pd.DataFrame(data)
# 중복된 행 확인
duplicates = df.duplicated()
print(duplicates)
2. 중복된 데이터 제거하기
중복된 데이터를 제거하기 위해서는 drop_duplicates
메서드를 사용합니다.
# 중복된 행 제거
df = df.drop_duplicates()
print(df)
또는 중복된 데이터를 제거하면서 첫 번째로 나타나는 데이터를 유지하고 싶다면, keep
매개변수를 사용할 수 있습니다.
# 첫 번째로 나타나는 데이터 유지
df = df.drop_duplicates(keep='first')
print(df)
이제 중복된 데이터를 확인하고 처리하는 방법을 알게 되었습니다. 데이터를 다룰 때 중복된 데이터를 적절히 처리하여 데이터의 정확성을 높이는 것이 중요합니다.