[java] 아파치 루신(Apache Lucene)의 색인 최적화 기법의 예시와 설명

28 Nov 2023

java

아파치 루신은 자바로 작성된 오픈 소스 검색엔진 라이브러리로, 텍스트 검색 및 분석에 많이 사용됩니다. 검색 속도와 성능을 향상시키기 위해 색인 최적화 기법을 사용할 수 있습니다.

색인 최적화란, 검색 엔진이 사용하는 색인 데이터 구조를 최적화하여 검색 속도를 높이는 작업을 말합니다. 아파치 루신은 여러 가지 색인 최적화 기법을 제공하여 사용자가 조정할 수 있도록 합니다. 이제 몇 가지 예시를 살펴보겠습니다.

1. Merge Policy

Merge Policy는 색인 세그먼트를 병합하는 방식을 제어하는 설정입니다. 아파치 루신은 기본적으로 TieredMergePolicy를 사용합니다. 이 정책은 크기에 기반하여 세그먼트 병합을 수행하며, 작은 세그먼트를 하나로 병합하면서 색인을 최적화합니다.

예를 들어, 아파치 루신의 설정 파일(lucene.properties 또는 lucene.yml)에서 mergePolicy의 값을 변경하여 다른 정책을 사용할 수 있습니다. LogByteSizeMergePolicy는 크기가 아닌 로그 기반의 정책을 사용하여 병합을 수행합니다.

2. Indexing Buffer Size 조정

색인 작업 시 사용되는 버퍼 크기는 색인 성능에 큰 영향을 미칩니다. 기본적으로 아파치 루신은 16MB의 버퍼 크기를 사용합니다. 그러나 메모리 용량과 시스템 사양에 따라 이 값을 조정하여 최적의 성능을 얻을 수 있습니다.

index.writer.buffer_mb 설정을 통해 버퍼 크기를 변경할 수 있습니다. 예를 들어, 32MB로 설정하면 색인 작업 속도가 향상될 수 있습니다. 다만, 메모리 부족으로 인한 예외가 발생할 수 있으므로 주의해야 합니다.

3. Compound File Format 사용

Compound File Format은 여러 개의 색인 파일을 하나로 병합하여 검색 속도를 향상시키는 방법입니다. 소량의 파일을 읽는 것보다 하나의 큰 파일을 읽는 것이 더 효율적이기 때문에 검색 성능을 개선할 수 있습니다.

아파치 루신은 기본적으로 이 형식을 사용하지만, 파일 크기가 작을 경우에는 병합하지 않고 개별 파일을 사용합니다. 개별 파일이 많을 경우 Compound File Format을 사용하여 병합할 수 있으며, 병합을 수동으로 트리거하는 것도 가능합니다.

4. Field Cache 사용

Field Cache는 색인된 문서 필드의 값을 미리 캐시하여 검색 성능을 향상시키는 방법입니다. 필드 값을 반복적으로 읽을 때마다 디스크 또는 메모리에서 읽지 않고 캐시된 값을 사용하여 속도를 개선할 수 있습니다.

그러나 대용량 데이터의 경우 Field Cache를 사용하면 메모리 부족이 발생할 수 있으므로 조심해야 합니다. 특히, 필드 값이 유일한 경우에는 Field Cache를 사용하지 않는 것이 좋습니다.

참고 자료

Apache Lucene 공식 문서: https://lucene.apache.org/
“Lucene In Action” - Erik Hatcher, Michael McCandless, Steve Rowe (2009)
“Mastering Apache Lucene 7.x” - Nishanth Shoban (2018)

이 예시들은 아파치 루신의 색인 최적화 기법 중 일부에 대한 설명입니다. 실제 적용 전에 시스템의 요구 사항과 동작 특성을 고려하여 적절한 설정을 선택해야 합니다.