[python] 중복된 데이터 처리 방법

05 Dec 2023

python

데이터베이스나 데이터 분석 작업을 수행할 때 종종 중복된 데이터를 처리해야 할 필요가 있습니다. 중복된 데이터는 결과를 왜곡하고 비효율적인 작업을 유발할 수 있으므로 이를 처리하는 방법에 대해 알아보겠습니다.

1. 중복된 데이터 확인하기

처리해야 할 데이터가 어떤 중복을 가지고 있는지 확인할 필요가 있습니다. Python에서 pandas 라이브러리를 사용하여 중복된 데이터를 확인할 수 있습니다.

import pandas as pd

# 더미 데이터프레임 생성
data = {'이름': ['홍길동', '김철수', '홍길동', '이영희'],
        '나이': [20, 25, 20, 22]}
df = pd.DataFrame(data)

# 중복된 데이터 확인
duplicated_data = df[df.duplicated()]

print(duplicated_data)

위의 코드는 pandas를 이용하여 중복된 데이터를 확인하는 예제입니다. duplicated() 메소드를 이용하면 중복된 데이터가 있는지 여부를 확인할 수 있습니다.

2. 중복된 데이터 제거하기

중복된 데이터를 확인한 후 처리하는 방법 중 하나는 중복된 데이터를 제거하는 것입니다. pandas에서는 drop_duplicates() 메소드를 사용하여 중복된 데이터를 제거할 수 있습니다.

import pandas as pd

# 더미 데이터프레임 생성
data = {'이름': ['홍길동', '김철수', '홍길동', '이영희'],
        '나이': [20, 25, 20, 22]}
df = pd.DataFrame(data)

# 중복된 데이터 제거
df.drop_duplicates(inplace=True)

print(df)

위의 코드는 중복된 데이터를 제거하는 예제입니다. drop_duplicates() 메소드의 inplace 매개변수를 True로 설정하면 원본 데이터프레임에서 중복된 데이터를 제거합니다.

3. 중복된 데이터로 대체하기

중복된 데이터를 제거하는 대신 다른 값으로 대체하여 사용할 수도 있습니다. pandas에서는 replace() 메소드를 사용하여 중복된 값을 다른 값으로 대체할 수 있습니다.

import pandas as pd

# 더미 데이터프레임 생성
data = {'이름': ['홍길동', '김철수', '홍길동', '이영희'],
        '나이': [20, 25, 20, 22]}
df = pd.DataFrame(data)

# 중복된 값을 다른 값으로 대체
df.replace({'홍길동': '홍길동님', 20: 21}, inplace=True)

print(df)

위의 코드에서는 '홍길동'과 20이라는 값이 중복되는 경우 df.replace() 메소드를 사용하여 '홍길동'을 '홍길동님'으로, 20을 21로 대체하였습니다.

4. 중복된 데이터 표시하기

중복된 데이터를 제거하지 않고 간단히 표시하고 싶은 경우도 있을 수 있습니다. pandas에서는 duplicated() 메소드를 사용하여 중복된 데이터를 표시할 수 있습니다.

import pandas as pd

# 더미 데이터프레임 생성
data = {'이름': ['홍길동', '김철수', '홍길동', '이영희'],
        '나이': [20, 25, 20, 22]}
df = pd.DataFrame(data)

# 중복된 데이터 표시
df['중복여부'] = df.duplicated()

print(df)

위의 코드에서는 df.duplicated() 메소드를 이용하여 중복된 데이터를 확인하고, 이를 df['중복여부'] 열에 표시하였습니다.

결론

중복된 데이터는 데이터 분석 작업에 있어서 왜곡된 결과를 가져올 수 있으므로 적절한 방법을 사용하여 처리해야 합니다. 중복된 데이터를 확인하고 제거하거나 대체하는 방법을 사용하여 데이터 정확성과 작업 효율성을 향상시킬 수 있습니다.