[java] Apache Storm과 Java를 사용하여 실시간 센싱 데이터 처리하기

16 Nov 2023

java

본 포스트에서는 Apache Storm을 사용하여 실시간 센싱 데이터를 처리하는 방법에 대해 알아보겠습니다. Apache Storm은 대용량의 실시간 데이터 처리를 위한 분산 스트리밍 플랫폼으로써, 많은 기업에서 사용되고 있습니다. 우리는 Java를 사용하여 Storm을 구성하고 데이터를 처리할 것입니다.

1. Apache Storm 소개

Apache Storm은 병렬처리를 지원하는 대규모 실시간 데이터 처리 플랫폼입니다. Storm은 실시간으로 들어오는 데이터를 다양한 작업자 노드들로 분산하여 처리하며, 내결함성과 확장성을 제공합니다. Storm은 대용량의 데이터를 처리할 수 있으며, 데이터의 유실 없이 안정적으로 데이터 처리를 수행할 수 있습니다.

2. 실시간 센싱 데이터 처리를 위한 Apache Storm 구성하기

Apache Storm을 사용하여 실시간 센싱 데이터를 처리하기 위해서는 다음과 같은 단계를 거쳐야 합니다:

2.1. Topology 구현하기

Apache Storm에서 모든 작업은 Topology로 구성됩니다. Topology는 데이터 플로우를 정의하고, 데이터 처리 노드 간의 연결과 프로세싱 방식을 결정합니다. Topology는 다양한 컴포넌트로 구성되며, 각 컴포넌트는 특정 작업을 수행하는 별도의 스플트(bolt) 또는 스포트(spout)로 구성됩니다.

2.2. 스포트(spout) 구현하기

스포트는 데이터 소스로부터 데이터를 읽어와 Topology에 전달하는 역할을 합니다. 스포트를 구현하기 위해서는 데이터 소스에 접근할 수 있는 코드를 작성해야 합니다. 이 예시에서는 센싱 데이터를 파일에서 읽어볼 것이므로, Java의 파일 입출력 API를 사용하여 파일에서 데이터를 읽어옵니다.

import java.io.BufferedReader;
import java.io.FileReader;

public class SensorDataSpout extends BaseRichSpout {
    private SpoutOutputCollector collector;
    private BufferedReader reader;
    private String currentLine;

    @Override
    public void open(Map<String, Object> config, TopologyContext context, SpoutOutputCollector collector) {
        this.collector = collector;
        try {
            this.reader = new BufferedReader(new FileReader("sensor_data.txt"));
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        }
    }

    @Override
    public void nextTuple() {
        try {
            if ((currentLine = reader.readLine()) != null) {
                collector.emit(new Values(currentLine));
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("sensorData"));
    }
}

2.3. 스플트(bolt) 구현하기

스플트는 전달된 데이터를 가공하거나 변형하는 역할을 합니다. 이 예시에서는 센싱 데이터를 파싱하여 필요한 정보를 추출하는 스플트를 구현해보겠습니다.

public class SensorDataParserBolt extends BaseBasicBolt {
    @Override
    public void execute(Tuple tuple, BasicOutputCollector collector) {
        String data = tuple.getStringByField("sensorData");
        // 데이터 파싱 및 가공 로직 작성
        collector.emit(new Values(parsedData));
    }    
    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("parsedData"));
    }
}

2.4. Topology 구성하기

Topology는 위에서 구현한 스포트와 스플트를 조합하여 데이터 처리 플로우를 구성합니다.

TopologyBuilder builder = new TopologyBuilder();

builder.setSpout("sensorDataSpout", new SensorDataSpout());
builder.setBolt("sensorDataParserBolt", new SensorDataParserBolt())
    .shuffleGrouping("sensorDataSpout");

Config config = new Config();
config.setNumWorkers(2);

StormSubmitter.submitTopology("SensorDataProcessingTopology", config, builder.createTopology());

3. 실행 및 결과 확인

위에서 구현한 Topology를 실행하기 위해서는 Storm 클러스터가 필요합니다. Storm 클러스터를 구성하고, 정상적으로 실행되는지 확인하기 위해서는 다음과 같은 명령어를 입력합니다:

storm jar SensorDataProcessingTopology.jar com.example.SensorDataProcessingTopology

이후 Storm 클러스터에서 Topology가 실행되며, 센싱 데이터를 실시간으로 처리합니다.

4. 결론

위에서는 Apache Storm을 사용하여 Java로 실시간 센싱 데이터를 처리하기 위한 방법을 알아보았습니다. Apache Storm의 강력한 분산 처리 기능을 활용하여 대규모 실시간 데이터를 처리하는 데 도움이 될 것입니다. 자세한 내용은 Apache Storm 공식 문서를 참조하시기 바랍니다.

[참고 자료]