[java] 아파치 루신(Apache Lucene)을 이용한 가중치 기반 검색 구현 방법

28 Nov 2023

java

아파치 루신은 자바를 기반으로 한 오픈 소스 검색 엔진 라이브러리로, 텍스트 문서의 색인 생성 및 검색 기능을 제공합니다. 이번 블로그 포스트에서는 아파치 루신을 사용하여 가중치 기반 검색을 구현하는 방법을 알아보겠습니다.

1. 아파치 루신 설치 및 설정

먼저, 아파치 루신을 사용하기 위해서는 아파치 루신을 설치해야 합니다. 아파치 루신의 최신 버전은 아파치 루신 공식 웹사이트에서 다운로드할 수 있습니다.

설치가 완료되었다면, 검색 인덱스를 생성하기 위해 필요한 설정을 해야 합니다. StandardAnalyzer와 같은 표준 분석기를 선택하여 텍스트를 토큰으로 분리하고, 색인 시 필요한 필드를 정의할 수 있습니다.

2. 문서 색인 생성

검색을 수행하기 전에, 아파치 루신을 사용하여 텍스트 문서를 색인화해야 합니다. 이를 위해서는 다음과 같은 과정을 따릅니다:

문서를 읽어와서 필요한 필드를 추출합니다. 예를 들어, 문서의 제목, 내용, 작성자 등의 정보를 추출할 수 있습니다.

// 필요한 필드 추출
String title = extractTitle(document);
String content = extractContent(document);
String author = extractAuthor(document);

색인화할 문서의 필드를 정의합니다. 각 필드마다 어떤 타입의 데이터를 저장할 것인지 결정해야 합니다.

// 필드 정의
FieldType titleFieldType = new FieldType();
titleFieldType.setIndexOptions(IndexOptions.DOCS_AND_FREQS_AND_POSITIONS);
titleFieldType.setStored(true);
titleFieldType.setTokenized(true);
   
// 필드에 데이터 설정
Document luceneDocument = new Document();
luceneDocument.add(new Field("title", title, titleFieldType));
luceneDocument.add(new StringField("author", author, Field.Store.YES));
luceneDocument.add(new TextField("content", content, Field.Store.NO));

색인 작업을 수행합니다.

// 색인 디렉토리 설정
Directory indexDirectory = FSDirectory.open(Paths.get("index"));
   
// 인덱스 작성기 생성
IndexWriterConfig config = new IndexWriterConfig(new StandardAnalyzer());
IndexWriter writer = new IndexWriter(indexDirectory, config);
   
// 문서를 색인에 추가
writer.addDocument(luceneDocument);
   
// 색인 작업 종료
writer.close();

3. 가중치 기반 검색 수행

색인이 완료되면, 아파치 루신을 이용하여 가중치 기반 검색을 수행할 수 있습니다. 가중치 기반 검색은 검색어의 중요도에 따라 결과를 가중치를 부여해 정렬하는 검색 기법입니다. 다음은 가중치 기반 검색을 수행하는 방법입니다:

// 검색어 생성
String queryStr = "검색어";
Query query = new QueryParser("content", new StandardAnalyzer()).parse(queryStr);

// 검색 수행
DirectoryReader reader = DirectoryReader.open(indexDirectory);
IndexSearcher searcher = new IndexSearcher(reader);

// 가중치 부여
FloatValuesSource fieldScore = new FloatFieldSource("field_name");
QueryScore queryScore = new QueryScore(query, fieldScore);

// 검색 결과 정렬
SortField scoreField = new SortField(null, SortField.Type.SCORE);
Sort sort = new Sort(scoreField);

// 검색 결과 반환
TopDocs topDocs = searcher.search(queryScore, MAX_RESULTS, sort);
ScoreDoc[] hits = topDocs.scoreDocs;

위의 코드에서 “field_name” 부분에는 가중치를 부여하고자 하는 필드의 이름을 입력해야 합니다.

이렇게 생성된 hits 배열을 순회하면서 검색 결과를 확인할 수 있습니다. 각 결과는 문서의 식별자와 검색 결과의 가중치(score)가 포함되어 있습니다.

4. 추가 개선 사항

위에서 소개한 방법은 아파치 루신을 사용하여 기본적인 가중치 기반 검색을 구현한 것입니다. 이외에도 더욱 정교한 가중치 기반 검색을 위해 다양한 기능을 사용할 수 있습니다. 예를 들어, 유사도 측정을 위한 통계적 모델링, 분류 알고리즘, 특정 필드에 대한 가중치 변경 등의 방법을 적용할 수 있습니다.

결론

이러한 방식으로 아파치 루신을 사용하여 가중치 기반 검색을 구현할 수 있습니다. 아파치 루신은 다양한 기능과 유연성을 제공하므로, 다양한 검색 시나리오에 맞게 활용할 수 있습니다.

참고 자료:

아파치 루신 공식 웹사이트