[java] 아파치 루신(Apache Lucene)을 사용한 색인화 처리의 병렬화 방법

28 Nov 2023

java

아파치 루신은 자바 기반의 오픈 소스 검색 엔진 라이브러리로, 대용량 데이터의 색인화와 검색을 효과적으로 처리할 수 있습니다. 이번에는 아파치 루신을 사용하여 색인화 처리를 병렬화하는 방법에 대해 알아보겠습니다.

1. 병렬화란?

병렬화는 작업을 여러 개의 작은 작업으로 나누어 동시에 처리함으로써 작업의 속도를 향상시키는 기법입니다. 색인화 작업을 병렬화한다면, 여러 개의 쓰레드를 이용하여 동시에 여러 문서를 색인화할 수 있어 처리 속도를 대폭 높일 수 있습니다.

2. 병렬화 방법

아파치 루신에서 색인화 작업을 병렬화하는 가장 간단한 방법은 ParallelIndexing 클래스를 이용하는 것입니다. 이 클래스는 내부적으로 쓰레드 풀을 생성하고, 각 쓰레드에서 문서의 일부를 색인화하여 병렬로 처리합니다.

아래는 ParallelIndexing을 사용한 병렬화 예시 코드입니다.

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

import java.io.IOException;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.concurrent.Executors;
import java.util.concurrent.ThreadPoolExecutor;

public class ParallelIndexingExample {
    public static void main(String[] args) throws IOException {
        // 색인 디렉토리 설정
        Path indexPath = Paths.get("path/to/index");
        Directory dir = FSDirectory.open(indexPath);
        
        Analyzer analyzer = new YourAnalyzer(); // 분석기 설정
        
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        config.setUseCompoundFile(false); // 색인 파일을 여러 개로 분리
        
        // 쓰레드 풀 생성
        int numThreads = Runtime.getRuntime().availableProcessors();
        ThreadPoolExecutor executor = (ThreadPoolExecutor) Executors.newFixedThreadPool(numThreads);
        
        // IndexWriter 생성
        IndexWriter writer = new IndexWriter(dir, config);

        // 문서 색인화 작업 설정
        ParallelIndexing parallelIndexing = new ParallelIndexing(writer, executor);
        parallelIndexing.setMaxThreadQueueSize(100); // 최대 쓰레드 큐 사이즈 설정
        
        // 문서 추가
        for (int i = 0; i < numDocuments; i++) {
            Document doc = new Document();
            doc.add(new Field("content", "This is document " + i, TextField.TYPE_STORED));
            parallelIndexing.addDocument(doc);
        }

        // 색인화 작업 실행
        parallelIndexing.start();

        // 색인화 작업 종료 후 메모리 정리
        parallelIndexing.abort();

        // 색인 디렉토리와 IndexWriter 닫기
        writer.close();
        dir.close();
    }
}

위 예시 코드에서는 먼저 색인 디렉토리와 분석기를 설정한 뒤, IndexWriterConfig와 IndexWriter를 생성합니다. 그리고 병렬화 작업을 위해 쓰레드 풀을 생성하고, ParallelIndexing을 이용하여 문서를 추가하고 색인화 작업을 실행합니다. 작업이 완료되면 IndexWriter와 색인 디렉토리를 닫습니다.

3. 결론

아파치 루신을 사용하여 색인화 작업을 병렬화하는 방법에 대해 알아보았습니다. 병렬화를 통해 대량의 문서를 효과적으로 처리할 수 있으며, 처리 시간을 단축시킬 수 있습니다. 좀 더 복잡한 병렬화 방법을 적용하여 작업을 최적화할 수도 있으니, 상황에 맞게 적용해보시기 바랍니다.

1. 병렬화란?

2. 병렬화 방법

3. 결론

참고 자료