[java] 아파치 루신(Apache Lucene)을 사용한 검색 결과 유사도 측정 방법

28 Nov 2023

java

아파치 루신(Apache Lucene)은 자바 기반의 오픈 소스 검색 라이브러리로, 텍스트 문서 색인 및 검색 기능을 제공합니다. 이를 통해 사용자는 대량의 텍스트 문서를 검색하고 관리할 수 있습니다. 그리고 루신은 검색 결과의 유사도를 측정하는 기능도 제공합니다.

검색 결과의 유사도는 주어진 검색어와 문서 사이의 유사성을 측정하여 순위를 매기는 작업입니다. 아파치 루신은 이를 위해 Term Frequency-Inverse Document Frequency (TF-IDF) 점수를 사용합니다.

TF-IDF는 검색어의 각 단어의 빈도(Term Frequency)와 해당 단어가 포함 된 문서의 역문서 빈도(Inverse Document Frequency)를 곱하여 계산됩니다. 이 점수는 검색어와 문서 간의 중요성 정도를 나타내며, 검색 결과의 순위를 결정하는 데 사용됩니다.

아래는 아파치 루신을 사용하여 검색 결과의 유사도를 측정하는 예제 코드입니다.

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.*;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;

import java.io.IOException;

public class SimilarityMeasurement {

    public static void main(String[] args) throws IOException, ParseException {
        // 루신 인덱스 생성
        Directory directory = new RAMDirectory();
        IndexWriterConfig config = new IndexWriterConfig(new StandardAnalyzer());
        IndexWriter indexWriter = new IndexWriter(directory, config);

        // 문서 추가
        addDocument(indexWriter, "1", "Apple is a fruit");
        addDocument(indexWriter, "2", "Banana is a fruit");
        addDocument(indexWriter, "3", "Carrot is a vegetable");
        addDocument(indexWriter, "4", "Durian is a fruit");

        indexWriter.close();

        // 검색어 생성
        String queryStr = "fruit";
        QueryParser parser = new QueryParser("content", new StandardAnalyzer());
        Query query = parser.parse(queryStr);

        // 검색 실행
        IndexReader indexReader = DirectoryReader.open(directory);
        IndexSearcher indexSearcher = new IndexSearcher(indexReader);

        int numResults = 100;
        TopDocs topDocs = indexSearcher.search(query, numResults);

        // 검색 결과 출력
        for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
            Document document = indexSearcher.doc(scoreDoc.doc);
            System.out.println("Document ID: " + document.get("id") + ", Score: " + scoreDoc.score + ", Content: " + document.get("content"));
        }

        indexReader.close();
    }

    private static void addDocument(IndexWriter indexWriter, String id, String content) throws IOException {
        Document document = new Document();
        document.add(new TextField("id", id, Field.Store.YES));
        document.add(new TextField("content", content, Field.Store.YES));
        indexWriter.addDocument(document);
    }
}

위 예제 코드에서는 먼저 루신 인덱스를 생성하고 몇 가지 예시 문서를 추가합니다. 그런 다음 검색어를 생성하고 인덱스를 검색하여 유사도가 높은 순으로 결과를 출력합니다.

이와 같은 방식으로 아파치 루신을 사용하여 검색 결과의 유사도를 측정할 수 있습니다. 루신은 다양한 기능과 설정을 제공하므로 자세한 내용은 공식 문서를 참조하시기 바랍니다.

참고 링크: