[java] 아파치 루신(Apache Lucene)을 활용한 검색 결과의 시각화 기법

28 Nov 2023

java

아파치 루신은 자바로 작성된 오픈 소스 검색 엔진 라이브러리로, 텍스트 기반의 검색 기능을 제공합니다. 이를 활용하여 검색 결과를 시각화하는 방법을 살펴보겠습니다.

1. 검색 결과 데이터 수집하기

먼저, 검색 결과를 시각화하기 위해서는 검색 결과 데이터를 수집해야 합니다. 아파치 루신은 인덱싱된 데이터를 검색하는 방식으로 동작하므로, 원하는 데이터를 먼저 인덱스에 추가해야 합니다.

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

public class IndexingExample {
    public static void main(String[] args) throws Exception {
        // 데이터 디렉토리 설정
        Directory directory = FSDirectory.open(Path.of("index"));
        
        // 분석기 설정
        Analyzer analyzer = new StandardAnalyzer();
        
        // 인덱스 작성기 설정
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        IndexWriter writer = new IndexWriter(directory, config);
        
        // 데이터 추가
        Document doc1 = new Document();
        doc1.add(new StringField("id", "1", Field.Store.YES));
        doc1.add(new TextField("content", "example document", Field.Store.YES));
        writer.addDocument(doc1);
        
        Document doc2 = new Document();
        doc2.add(new StringField("id", "2", Field.Store.YES));
        doc2.add(new TextField("content", "another example", Field.Store.YES));
        writer.addDocument(doc2);
        
        // 인덱스 작성 완료
        writer.close();
    }
}

위의 예제 코드는 아파치 루신을 사용하여 인덱스를 작성하는 방법을 보여줍니다. index라는 디렉토리에 인덱스가 생성되며, content 필드에 데이터가 저장됩니다. 자신의 상황에 맞게 데이터를 추가하면 됩니다.

2. 검색 결과 시각화하기

검색 결과를 시각화하는 방법은 다양합니다. 여기서는 막대 그래프를 사용하여 검색 결과를 시각화하는 방법을 예시로 살펴보겠습니다. 이를 위해서는 검색 결과를 분석하고 시각화하는 코드가 필요합니다.

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

public class SearchAndVisualizeExample {
    public static void main(String[] args) throws Exception {
        // 데이터 디렉토리 설정
        Directory directory = FSDirectory.open(Path.of("index"));
        
        // 분석기 설정
        Analyzer analyzer = new StandardAnalyzer();
        
        // 검색 쿼리 생성
        QueryParser parser = new QueryParser("content", analyzer);
        Query query = parser.parse("example");
        
        // 검색 수행
        IndexReader reader = DirectoryReader.open(directory);
        IndexSearcher searcher = new IndexSearcher(reader);
        TopDocs topDocs = searcher.search(query, 10);
        
        // 검색 결과 분석 및 시각화
        ScoreDoc[] hits = topDocs.scoreDocs;
        for (ScoreDoc hit : hits) {
            Document doc = searcher.doc(hit.doc);
            // 검색 결과를 시각화하는 코드 작성
        }
        
        // 검색 완료
        reader.close();
    }
}

위의 예제 코드는 아파치 루신을 사용하여 특정 쿼리(example)에 대한 검색을 수행하는 방법을 보여줍니다. 검색 결과(hits)를 분석하고 시각화하는 부분은 자신의 상황에 맞게 구현하면 됩니다.

3. 추가적인 시각화 기법 탐색하기

위에서는 막대 그래프를 사용한 시각화 예시를 살펴보았지만, 아파치 루신을 활용하여 다양한 시각화 기법을 적용할 수 있습니다. 예를 들어, 워드 클라우드, 히트 맵, 선 그래프 등을 활용하여 검색 결과를 시각화할 수 있습니다.

아파치 루신은 검색 라이브러리로써 검색 결과를 제공하는 기능에 초점을 맞추고 있으므로, 시각화 부분은 개발자의 자유로운 구현에 따라 다양한 방식으로 활용할 수 있습니다.

1. 검색 결과 데이터 수집하기

2. 검색 결과 시각화하기

3. 추가적인 시각화 기법 탐색하기

참고 자료