이터레이터와 제너레이터를 사용한 데이터 중복 제거

17 Sep 2023

python

데이터 분석 및 처리에서 중복된 데이터를 제거하는 것은 중요한 작업입니다. 중복된 데이터는 결과의 정확성을 해치고, 처리 시간을 낭비하며, 자원을 낭비할 수 있습니다. 이 문제를 해결하기 위해 이터레이터와 제너레이터를 사용하여 데이터 중복을 효율적으로 제거할 수 있습니다.

이터레이터

이터레이터는 순회 가능한 객체(iterable)에서 데이터를 순차적으로 처리하는 방법입니다. 중복된 데이터를 제거하기 위해 이터레이터를 사용하는 일반적인 방법은 다음과 같습니다:

def remove_duplicates(data):
    seen = set()
    for item in data:
        if item not in seen:
            seen.add(item)
            yield item

위 코드에서 remove_duplicates 함수는 data로 전달된 이터러블 객체에서 중복된 데이터를 제거합니다. seen이라는 빈 집합(set)을 생성하고, 이터러블 객체를 순회하면서 중복된 데이터가 있는지 확인합니다. 중복된 데이터가 없을 경우에만 seen에 데이터를 추가하고, 순회한 데이터를 yield 키워드를 사용하여 반환합니다.

제너레이터

제너레이터는 이터레이터를 생성하는 함수입니다. 제너레이터를 사용하여 데이터 중복을 제거할 수도 있습니다. 다음은 제너레이터를 사용한 중복 제거 예시입니다:

def remove_duplicates(data):
    seen = set()
    for item in data:
        if item not in seen:
            seen.add(item)
            yield item

# 데이터 생성
data = [1, 2, 2, 3, 4, 4, 5]

# 중복 제거 제너레이터 사용
unique_data = remove_duplicates(data)

# 중복 제거된 데이터 출력
for item in unique_data:
    print(item)

위 코드에서 remove_duplicates 함수는 이터레이터와 동일한 로직으로 중복된 데이터를 제거합니다. 데이터를 생성한 후 remove_duplicates 함수를 호출하여 중복 제거된 데이터를 생성하는 제너레이터를 반환받습니다. 이후에는 생성된 제너레이터를 순회하면서 중복이 제거된 데이터를 출력할 수 있습니다.

결론

이터레이터와 제너레이터를 활용하여 데이터 중복을 효율적으로 제거할 수 있습니다. 중복된 데이터는 결과의 정확성과 성능에 영향을 미치므로, 이러한 문제를 해결하는 방법에 대해 알고 있으면 데이터 처리 작업에서 더욱 효율적으로 작업할 수 있습니다.

#DataAnalysis #중복제거