[python] 데이터 중복 처리하기

14 Dec 2023

python

이 포스트에서는 Python을 사용하여 데이터프레임에서 중복된 데이터를 처리하는 방법에 대해 알아보겠습니다.

1. 중복된 데이터 확인하기

가장 먼저 데이터프레임에서 중복된 데이터를 확인해야 합니다. 아래의 코드를 사용하여 중복된 행을 확인할 수 있습니다.

import pandas as pd

# 데이터프레임 생성
data = {'이름': ['홍길동', '김철수', '홍길동', '이영희', '박영수'],
        '나이': [25, 30, 25, 28, 32]}
df = pd.DataFrame(data)

# 중복된 행 확인
duplicates = df.duplicated()
print(duplicates)

2. 중복된 데이터 제거하기

중복된 데이터를 제거하기 위해서는 drop_duplicates 메서드를 사용합니다.

# 중복된 행 제거
df = df.drop_duplicates()
print(df)

또는 중복된 데이터를 제거하면서 첫 번째로 나타나는 데이터를 유지하고 싶다면, keep 매개변수를 사용할 수 있습니다.

# 첫 번째로 나타나는 데이터 유지
df = df.drop_duplicates(keep='first')
print(df)

이제 중복된 데이터를 확인하고 처리하는 방법을 알게 되었습니다. 데이터를 다룰 때 중복된 데이터를 적절히 처리하여 데이터의 정확성을 높이는 것이 중요합니다.