[파이썬] 음성 데이터의 음성 합성에서의 음성 변환 품질

05 Sep 2023

python

음성 합성 기술은 인공적인 방법으로 음성을 생성하는 기술을 의미합니다. 음성 합성은 음성 인식, 음성 안내, 디지털 보이스 애셋 생성 등 다양한 분야에서 사용됩니다. 하지만 음성 합성 시 음성 변환 품질은 매우 중요한 요소입니다. 이번 블로그에서는 Python을 사용하여 음성 변환 품질을 개선하는 방법을 알아보겠습니다.

1. 주파수 변환을 통한 음성 변환

일반적으로 음성 변환은 다양한 기법을 사용하여 원하는 목소리나 억양으로 음성을 변환하는 과정을 의미합니다. 주파수 변환은 음성 데이터의 주파수 성분을 수정함으로써 음성의 특성을 변화시키는 기법 중 하나입니다.

import numpy as np
from scipy.signal import resample

def pitch_shift(audio, semitones):
    sample_rate = 44100  # 예시로 44.1kHz 사용
    orig_time = np.linspace(0, len(audio) / sample_rate, num=len(audio))
    new_time = np.linspace(0, len(audio) / sample_rate, num=int(len(audio) * 2**(semitones/12)))
    new_audio = resample(audio, int(len(audio) * 2**(semitones/12)))
    return new_audio

# 원본 음성 데이터
original_audio = np.array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0])

# 음성 높이를 2 반음 올린 음성 데이터 생성
shifted_audio = pitch_shift(original_audio, 2)

위의 코드는 pitch_shift 함수를 사용하여 음성 데이터의 음높이를 지정된 반음만큼 변환하는 예시입니다. 이를 위해 numpy와 scipy 라이브러리를 사용하여 음성 데이터의 주파수 성분을 변환합니다.

2. 음성 변환 후 후처리 기법 적용

음성 변환 후에는 변환한 음성 데이터에 대해 후처리 기법을 적용하여 음성의 자연스러움과 품질을 개선할 수 있습니다. 후처리 기법 중 대표적인 것은 음성 신호의 노이즈 제거와 음성 압축입니다.

from scipy.io import wavfile
import noisereduce as nr
import pydub
from pydub import effects

# 원본 음성 파일 로드
rate, original_audio = wavfile.read('original_audio.wav')

# 음성 변환
# ...

# 음성 변환 후 노이즈 제거
reduced_noise = nr.reduce_noise(y=shifted_audio, sr=rate, verbose=False)

# 음성 변환 후 압축 적용
compressed_audio = pydub.effects.compress(reduced_noise, threshold=-20.0, normalize=False)

# 결과 저장
wavfile.write('processed_audio.wav', rate, compressed_audio.astype(np.int16))

위의 코드는 noisereduce와 pydub 라이브러리를 사용하여 음성 변환 후 노이즈 제거 및 압축을 적용하는 예시입니다. 변환된 음성 데이터 shifted_audio를 노이즈 제거 알고리즘 reduce_noise를 통해 노이즈를 제거하고, pydub.effects.compress를 사용하여 압축을 적용합니다. 최종 결과를 processed_audio.wav 파일로 저장합니다.

3. 평가 지표를 활용한 음성 변환 품질 측정

음성 변환 품질을 평가하기 위해 다양한 평가 지표를 활용할 수 있습니다. 평가 지표 중 일반적으로 사용되는 것은 주파수 응답 곡선, 손실 함수, SNR(Signal-to-Noise Ratio) 등입니다.

def calculate_snr(original_audio, processed_audio):
    noise = original_audio - processed_audio
    original_power = np.mean(original_audio ** 2)
    noise_power = np.mean(noise ** 2)
    snr = 10 * np.log10(original_power / noise_power)
    return snr

# 원본 음성 파일 로드
original_rate, original_audio = wavfile.read('original_audio.wav')

# 처리된 음성 파일 로드
processed_rate, processed_audio = wavfile.read('processed_audio.wav')

# SNR 계산
snr = calculate_snr(original_audio, processed_audio)

위의 코드는 변환 이전의 원본 음성 파일과 처리된 음성 파일을 비교하여 SNR을 계산하는 예시입니다. SNR은 원본 음성과 노이즈의 비율을 나타냅니다. 높은 SNR 값은 좋은 음성 변환 품질을 의미합니다.

음성 변환 품질을 측정하고 개선하기 위해 다양한 평가 지표와 알고리즘을 사용할 수 있습니다. 위의 예시 코드를 참고하여 음성 변환 품질을 개선하는데 도움이 되기를 바랍니다.