[java] 자바와 아파치 하둡의 데이터 중복 제거 기능

15 Nov 2023

java

데이터 중복은 데이터 분석을 신뢰할 수 없게 만들 수 있는 주요한 문제 중 하나입니다. 중복된 데이터는 처리 및 저장 비용을 증가시킬 수 있으며, 잘못된 결과를 초래할 수도 있습니다. 이러한 이유로 많은 기업들이 데이터 중복을 제거하기 위해 다양한 방법을 사용합니다.

이 글에서는 자바와 아파치 하둡을 사용하여 데이터 중복을 제거하는 방법에 대해 알아보겠습니다.

자바를 사용한 데이터 중복 제거

자바에서 데이터 중복을 제거하는 가장 일반적인 방법은 HashSet을 사용하는 것입니다. HashSet은 중복된 값을 허용하지 않는 자바의 데이터 구조입니다. 따라서 중복된 값을 HashSet에 추가하려고 하면, 해당 값을 이미 포함하고 있기 때문에 추가되지 않습니다.

다음은 자바에서 HashSet을 사용하여 데이터 중복을 제거하는 예시 코드입니다.

import java.util.HashSet;
import java.util.List;

public class DataDuplicateRemover {

    public List<String> removeDuplicates(List<String> data) {
        HashSet<String> uniqueData = new HashSet<>(data);
        return new ArrayList<>(uniqueData);
    }
}

위의 코드에서 removeDuplicates 메소드는 중복된 데이터가 포함된 리스트를 매개변수로 받아 HashSet을 사용하여 중복을 제거한 후, 중복이 제거된 데이터가 포함된 새로운 리스트를 반환합니다.

아파치 하둡을 사용한 데이터 중복 제거

아파치 하둡은 대규모 데이터를 처리하기 위한 분산 시스템입니다. 아파치 하둡을 사용하여 데이터 중복을 제거하기 위해서는 MapReduce 프레임워크를 사용할 수 있습니다. MapReduce는 데이터를 매핑하는 Map 단계와 결과를 집계하는 Reduce 단계로 구성됩니다.

다음은 아파치 하둡과 MapReduce를 사용하여 데이터 중복을 제거하는 예시 코드입니다.

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.HashSet;

public class HadoopDataDuplicateRemover {

    public static class MapperClass extends Mapper<Object, Text, Text, Text> {

        private Text data = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            String line = value.toString();
            // 중복된 데이터를 제거하기 위해 HashSet을 사용하여 중복을 체크합니다.
            HashSet<String> uniqueData = new HashSet<>();
            for(String word : line.split(",")) {
                uniqueData.add(word);
            }
            for(String uniqueWord : uniqueData) {
                data.set(uniqueWord);
                // 중복이 제거된 데이터를 출력합니다.
                context.write(data, new Text(""));
            }
        }
    }

    public static class ReducerClass extends Reducer<Text, Text, Text, Text> {

        public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
            // 중복이 제거된 결과를 출력합니다.
            context.write(key, new Text(""));
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "DataDuplicateRemover");
        job.setJarByClass(HadoopDataDuplicateRemover.class);
        job.setMapperClass(MapperClass.class);
        job.setReducerClass(ReducerClass.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        job.setInputFormatClass(org.apache.hadoop.mapreduce.lib.input.TextInputFormat.class);
        job.setOutputFormatClass(org.apache.hadoop.mapreduce.lib.output.TextOutputFormat.class);
        org.apache.hadoop.mapreduce.lib.input.FileInputFormat.addInputPaths(job, args[0]); // 입력 경로 설정
        org.apache.hadoop.mapreduce.lib.output.FileOutputFormat.setOutputPath(job, new Path(args[1])); // 출력 경로 설정
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

위의 코드는 MapReduce를 사용하여 데이터 중복을 제거하기 위한 Mapper 및 Reducer 클래스를 정의하고, Job 설정을 위한 main 메소드를 포함합니다. Mapper 클래스에서는 각 라인의 데이터를 HashSet을 사용하여 중복을 체크하고, 중복이 제거된 데이터를 출력합니다. Reducer 클래스에서는 중복이 제거된 결과를 출력합니다.

참고 자료

자바 HashSet 문서: https://docs.oracle.com/en/java/javase/11/docs/api/java.base/java/util/HashSet.html
아파치 하둡 MapReduce 문서: https://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapreduce/package-summary.html