[java] Kafka Streams와 스트리밍 ETL 프로세스 개발 방법

16 Nov 2023

java

소개

Kafka Streams는 Apache Kafka를 기반으로하는 실시간 스트리밍 데이터 처리 라이브러리입니다. 이 라이브러리를 사용하면 대량의 데이터를 실시간으로 처리하고 변환할 수 있습니다. ETL(Extract, Transform, Load) 프로세스를 개발하기 위해 Kafka Streams를 사용하는 방법을 알아보겠습니다.

1. Kafka Streams 설정

먼저, Kafka Streams를 사용하기 위해 필요한 설정을 구성해야 합니다. 아래는 Kafka Streams를 초기화하는 예제입니다.

Properties props = new Properties();
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "my-stream-processor");
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());

StreamsBuilder builder = new StreamsBuilder();  

위의 코드에서는 먼저 필요한 설정을 Properties 객체에 저장합니다. APPLICATION_ID_CONFIG는 Kafka Streams 애플리케이션의 고유 식별자를 설정하고, BOOTSTRAP_SERVERS_CONFIG는 Kafka 클러스터의 브로커 주소를 설정합니다. 또한, DEFAULT_KEY_SERDE_CLASS_CONFIG와 DEFAULT_VALUE_SERDE_CLASS_CONFIG는 키와 값의 직렬화 및 역직렬화에 사용할 클래스를 설정합니다.

2. Topology 구성

다음으로는 Kafka Streams 애플리케이션의 토폴로지를 구성해야 합니다. 아래 코드는 예제로 사용할 토폴로지를 구성하는 방법을 보여줍니다.

builder.stream("input-topic")
       .filter((key, value) -> value > 0)
       .mapValues(value -> value * 2)
       .to("output-topic");

위의 코드에서는 builder 객체를 사용하여 입력 토픽에서 데이터를 읽고, 필터링과 변환 작업을 수행한 후 출력 토픽에 결과를 쓰도록 구성합니다. 이 예제에서는 입력 값이 0보다 큰 경우에만 필터링을 수행하고, 값을 2배로 변환한 후 출력 토픽에 쓰도록 설정하였습니다.

3. 애플리케이션 실행

마지막으로, Kafka Streams 애플리케이션을 실행해야 합니다. 아래 코드는 Kafka Streams 애플리케이션을 실행하는 예제입니다.

KafkaStreams streams = new KafkaStreams(builder.build(), props);
streams.start();

위의 코드에서는 builder 객체를 사용하여 토폴로지를 생성한 후, 이를 가지고 KafkaStreams 객체를 생성합니다. 그리고 start() 메소드를 호출하여 애플리케이션을 실행합니다.

결론

위에서는 Kafka Streams를 사용하여 ETL 프로세스를 개발하는 방법을 알아보았습니다. Kafka Streams는 높은 처리량과 낮은 지연 시간을 갖는 분산 스트리밍 애플리케이션 개발에 큰 도움이 됩니다. 이를 통해 데이터 파이프 라인을 구축하고 실시간으로 데이터를 처리할 수 있습니다.

더 많은 정보를 원하시면 Kafka Streams 문서를 참조하십시오.