[sql] 인덱스의 선택성과 밀도

07 Dec 2023

데이터베이스에서 인덱스는 데이터 검색과 조회 성능을 향상시키기 위해 사용되는 중요한 요소입니다. 그 중에서도 인덱스의 선택성과 밀도는 인덱스의 효율성을 결정하는 중요한 요소입니다. 이번 포스트에서는 선택성과 밀도의 개념을 살펴보고, 인덱스의 효율성을 높이기 위한 방법에 대해 알아보겠습니다.

1. 선택성

인덱스의 선택성은 해당 인덱스가 얼마나 유용하게 사용될 수 있는가를 나타냅니다. 선택성은 인덱스 컬럼의 중복된 값의 개수에 따라 결정됩니다. 선택성이 높을수록 인덱스는 더 유용하게 사용될 수 있습니다.

예를 들어, 성별을 나타내는 컬럼에 대한 인덱스가 있다고 가정해봅시다. 이 컬럼의 값이 ‘남성’과 ‘여성’ 두 가지만 가지고 있다면, 선택성은 매우 높다고 할 수 있습니다. 하지만 이 컬럼의 값이 ‘남성’, ‘여성’, ‘중성’ 등 다양한 경우가 있다면, 선택성은 낮다고 할 수 있습니다. 선택성이 낮은 인덱스의 경우 데이터베이스 엔진은 인덱스를 사용하지 않고 테이블을 순차적으로 검색하는 것이 더 효율적일 수 있습니다.

따라서 인덱스의 선택성은 인덱스를 생성할 때 고려해야 할 중요한 요소입니다. 필요한 컬럼에 대한 인덱스를 만들어야 하지만, 선택성이 낮은 컬럼에 인덱스를 생성하는 것은 오히려 성능을 저하시킬 수 있으므로 주의해야 합니다.

2. 밀도

인덱스의 밀도는 인덱스 컬럼에서 중복된 값의 비율을 나타냅니다. 밀도가 높을수록 중복 값이 적어서 인덱스가 더 효율적으로 사용될 수 있습니다. 반대로 밀도가 낮을수록 중복 값이 많아서 인덱스의 효율성이 감소할 수 있습니다.

인덱스의 밀도는 인덱스를 생성할 때 데이터베이스 엔진이 자동으로 계산하며, 밀도 값을 이용하여 인덱스의 선택성을 결정하는 경우도 있습니다. 밀도 값이 낮은 컬럼의 경우 선택성이 낮아서 인덱스를 사용하기보다는 테이블을 순차적으로 검색하는 것이 더 효율적일 수 있습니다.

인덱스의 밀도는 데이터의 분포도와 관련이 있습니다. 데이터가 고르게 분포되어 있다면 밀도가 높아지고, 데이터가 특정 값에 집중되어 있다면 밀도가 낮아집니다. 따라서 데이터의 특성에 맞게 인덱스를 선택하고 조정하여 밀도를 최적화하는 것이 중요합니다.

3. 인덱스의 효율적인 활용을 위한 방법

인덱스의 선택성과 밀도가 인덱스의 효율성을 결정하므로, 인덱스를 효율적으로 활용하기 위해서는 다음과 같은 방법을 고려할 수 있습니다.

선택성이 높은 컬럼에 인덱스를 생성하고, 선택성이 낮은 컬럼에는 인덱스를 생성하지 않는다.
중복된 값이 많은 컬럼에는 인덱스를 생성하지 않는다.
밀도가 낮은 컬럼에는 인덱스를 생성하지 않는다.
데이터의 특성에 맞게 인덱스를 조정하여 밀도를 최적화한다.
쿼리의 성능을 분석하고, 쿼리에 사용되는 컬럼에 맞게 인덱스를 설계한다.

위의 방법은 일반적으로 인덱스의 선택성과 밀도를 최적화하여 인덱스를 효율적으로 사용하는 것을 목표로 합니다. 하지만 각 데이터베이스 시스템마다 차이가 있을 수 있으므로, 실제 데이터베이스의 특성과 쿼리의 패턴을 고려하여 최적의 인덱스 전략을 선택해야 합니다.

1. 선택성

2. 밀도

3. 인덱스의 효율적인 활용을 위한 방법

참고 자료