[java] Kafka Streams의 강력한 유틸리티 클래스 및 기능

16 Nov 2023

java

Kafka Streams는 대규모 실시간 데이터 처리를 위한 분산 스트리밍 플랫폼이다. 이를 통해 데이터를 신속하게 처리하고 변환할 수 있다. 이번 블로그 글에서는 Kafka Streams에서 사용할 수 있는 몇 가지 강력한 유틸리티 클래스와 기능들을 살펴보겠다.

1. KStream 및 KTable

Kafka Streams의 핵심 클래스는 KStream과 KTable이다. KStream은 비변화된 순차 데이터 스트림이고, KTable은 매핑된 키-값 쌍 데이터 테이블이다. 이러한 클래스들을 이용하여 데이터를 처리하고 변환할 수 있다.

2. Processor API

Kafka Streams는 Processor API를 제공하여 사용자가 데이터 스트림을 처리할 수 있는 방법을 제공한다. 이 API를 사용하면 사용자 정의 프로세서를 작성하고, 데이터 스트림을 변환하거나 집계할 수 있다.

stream.process(new Processor<String, String>() {
    public void init(ProcessorContext context) {
        // 초기화 로직
    }

    public void process(String key, String value) {
        // 데이터 처리 로직
        // 예: value를 대문자로 변환하여 출력
        context().forward(key, value.toUpperCase());
    }

    public void close() {
        // 마무리 작업 로직
    }
});

3. Windowing

Kafka Streams에서는 윈도우링을 통해 시간을 기반으로 스트림 데이터를 그룹핑할 수 있다. 윈도우링은 스트림 데이터를 지정된 시간 간격에 따라 처리하는 것을 의미한다. 예를 들어, 5분마다 스트림 데이터를 집계하거나 처리할 수 있다.

stream.windowedBy(TimeWindows.of(Duration.ofMinutes(5)))
    .count();

4. 조인 및 집계

Kafka Streams에서는 KTable과 KStream을 조인하거나 집계할 수 있다. 이를 통해 다른 데이터 소스로부터 가져온 데이터와 스트림 데이터를 조인하고, 집계할 수 있다. 이를 통해 실시간으로 데이터를 통합하거나 분석할 수 있다.

KTable<String, Long> table = // 다른 데이터 소스로부터 가져온 KTable

stream.join(table, (streamValue, tableValue) -> {
        // 조인된 데이터 처리 로직
        // 예: 두 값을 합하여 반환
        return streamValue + tableValue;
    });

5. 상태 저장

Kafka Streams는 상태를 저장할 수 있는 기능을 제공한다. 이를 통해 중간 결과를 메모리에 보관하고, 나중에 다시 사용할 수 있다. 예를 들어, 이전 상태를 사용하여 다음 데이터 스트림을 처리할 수 있다.

stream.groupByKey()
    .aggregate(
        () -> 0L,                     // 초기값
        (key, value, aggregate) -> {   // 집계 함수
            return aggregate + value;
        }
    )
    .toStream();

위에서 언급한 유틸리티 클래스 및 기능들을 사용하여 Kafka Streams를 효율적으로 활용할 수 있다. 이를 통해 대규모 실시간 데이터 처리를 수행할 수 있고, 다른 데이터 소스와의 통합도 가능하다.

더 자세한 내용은 Kafka Streams 공식 문서를 참조해보기 바란다.