[sql] 인덱스의 데이터 저장 방식과 관련 알고리즘

05 Dec 2023

인덱스는 데이터베이스에서 효율적인 데이터 검색을 위해 사용되는 구조이다. 인덱스는 테이블의 컬럼에 대한 정렬된 데이터를 포함하고 있으며, 이를 통해 빠른 검색이 가능하다. 이번 블로그에서는 인덱스의 데이터 저장 방식과 관련 알고리즘에 대해 알아보도록 하겠다.

클러스터형 인덱스 (Clustered Index)

클러스터형 인덱스는 테이블의 데이터를 정렬된 상태로 저장한다. 즉, 인덱스의 키 값에 따라 테이블의 레코드가 정렬되어 저장된다. 이러한 구조는 인덱스 키 값에 대한 범위 검색이 매우 빠르게 수행되지만, 삽입 및 삭제 연산이 느릴 수 있다는 단점이 있다.

클러스터형 인덱스는 주로 테이블의 기본 키에 대해 생성된다. 테이블당 한 개의 클러스터형 인덱스가 생성 가능하며, 인덱스 키의 중복은 허용되지 않는다.

비클러스터형 인덱스 (Non-Clustered Index)

비클러스터형 인덱스는 테이블의 데이터를 별도의 데이터 구조로 저장한다. 이 구조는 인덱스 키와 인덱스 엔트리로 구성되어 있다. 인덱스 엔트리는 인덱스 키와 해당 키 값을 가진 레코드의 위치를 가리키는 포인터로 이루어진다.

비클러스터형 인덱스는 단일 또는 다중 컬럼에 대해 생성될 수 있다. 하지만, 하나의 테이블에는 여러 개의 비클러스터형 인덱스를 생성할 수 있다.

인덱스 알고리즘

인덱스에는 다양한 알고리즘이 사용될 수 있다. 가장 일반적으로 사용되는 인덱스 알고리즘은 B-트리 알고리즘이다. B-트리는 데이터를 트리 형태로 조직화해 인덱스를 구축하는 자료구조이다.

B-트리는 특정한 규칙을 통해 트리의 균형을 유지하고, 효율적인 삽입 및 삭제 연산을 수행할 수 있다. 또한, B-트리는 키 값을 기준으로 범위 검색이 가능하다는 장점이 있다.

그 외에도 해시 인덱스, 비트맵 인덱스 등 다양한 인덱스 알고리즘이 존재한다. 각각의 알고리즘은 특정한 상황에서 최적의 성능을 보이므로, 사용자는 데이터베이스 시스템의 특성과 요구사항에 맞는 인덱스 알고리즘을 선택해야 한다.

정리

인덱스는 데이터베이스에서 빠른 검색을 위해 사용되는 구조로, 데이터 저장 방식과 관련된 알고리즘이 있다. 클러스터형 인덱스는 테이블의 데이터를 정렬된 상태로 저장하며, 비클러스터형 인덱스는 별도의 데이터 구조로 저장된다. 이러한 인덱스는 B-트리 알고리즘을 기반으로 동작하며, 다양한 인덱스 알고리즘이 존재한다.

인덱스를 적절하게 활용하면 데이터베이스의 성능을 향상시킬 수 있는데, 따라서 개발자는 인덱스의 원리와 동작 방식을 잘 이해하고 적절하게 활용하는 것이 중요하다.

참고 자료: MySQL 공식 문서