[파이썬] 음성 데이터의 음성 합성을 위한 음성 변환 활용

05 Sep 2023

python

음성 데이터에 음성 변환을 적용하여 음성 합성에 활용하는 기술은 최근에 많은 관심을 받고 있습니다. 음성 합성은 인공지능(AI) 음성 기술의 일부로, 기존 음성 데이터를 가지고 목소리를 변환하거나, 완전히 새로운 음성을 합성하는 기술입니다.

음성 변환은 주어진 음성을 다른 목소리로 변환하는 기술입니다. 이를 통해 음성 데이터에 적절한 변화를 주어 목소리의 성별, 연령, 감정 등을 조절할 수 있습니다. 음성 변환은 음성 합성뿐만 아니라 음성 인식, 음성 보안 등 다양한 응용 분야에서 활용됩니다.

파이썬은 음성 변환 및 합성에 활용할 수 있는 다양한 라이브러리와 도구들을 제공합니다. 이를 통해 음성 데이터를 로드하고 처리하고 변환하여 원하는 목소리를 생성할 수 있습니다.

음성 변환 라이브러리 - Librosa

Librosa는 파이썬에서 음악 및 오디오 관련 작업을 수행하기 위한 라이브러리로, 음성 변환에도 활용됩니다. Librosa를 사용하여 음성 데이터를 로드하고, 소리의 주파수 스펙트럼을 분석하고, 필요에 따라 변환 작업을 수행할 수 있습니다.

import librosa

# 음성 데이터 로드
audio, sr = librosa.load('voice.wav')

# 스펙트럼 분석
D = librosa.stft(audio)

# 스펙트럼 변환
D_shifted = librosa.effects.pitch_shift(D, sr, n_steps=2)

# 변환된 스펙트럼을 오디오로 변환
audio_shifted = librosa.istft(D_shifted)

# 변환된 음성 데이터 저장
librosa.output.write_wav('voice_shifted.wav', audio_shifted, sr)

위의 예시 코드에서는 Librosa를 사용하여 ‘voice.wav’라는 파일로부터 음성 데이터를 로드합니다. 이후 stft 함수를 사용하여 음성 데이터의 주파수 스펙트럼을 분석하고, pitch_shift 함수를 사용하여 해당 스펙트럼을 음성 변환 작업을 수행합니다. 변환된 스펙트럼을 다시 istft 함수를 사용하여 오디오로 변환한 뒤, write_wav 함수를 사용하여 변환된 음성 데이터를 저장합니다.

음성 합성 라이브러리 - WaveNet

WaveNet은 딥러닝 알고리즘을 기반으로한 음성 합성 모델로, 파이썬에서 활용할 수 있는 라이브러리가 있습니다. WaveNet을 사용하면 매우 자연스러운 인간의 음성을 생성할 수 있습니다. 이러한 음성 합성 모델을 사용하기 위해 파이썬에서는 Tacotron, Tacotron 2 등의 라이브러리를 사용합니다.

from tacotron2 import Tacotron2
from waveglow import WaveGlow

# Tacotron 모델 로드
model = Tacotron2()
model.load_state_dict(torch.load('tacotron2.pt'))
model.eval()

# 입력 텍스트로부터 스펙트럼 생성
text = "Hello, how are you?"
inputs = text_to_sequence(text)
inputs = torch.autograd.Variable(inputs.unsqueeze(0))
mel_outputs, mel_outputs_postnet, _, alignments = model.inference(inputs)

# WaveGlow 모델 로드
waveglow = WaveGlow()
waveglow.load_state_dict(torch.load('waveglow.pt'))
waveglow.eval()

# 스펙트럼으로부터 음성 데이터 생성
with torch.no_grad():
    mel_outputs_postnet = mel_outputs_postnet.to(device)
    mel_outputs_postnet = mel_outputs_postnet.half()
    audio = waveglow.infer(mel_outputs_postnet)

# 음성 데이터 저장
write_wav('generated_voice.wav', audio, samplerate=22050)

위의 예시 코드에서는 Tacotron 2와 WaveGlow 모델을 사용하여 입력 텍스트를 음성으로 합성합니다. 먼저 Tacotron 2 모델을 로드한 뒤, 입력 텍스트를 스펙트럼으로 변환하여 Tacotron 2 모델에 입력하고, 음성 스펙트럼을 생성합니다. 이후 WaveGlow 모델을 로드한 뒤, 생성된 스펙트럼을 WaveGlow 모델에 입력하여 자연스러운 음성 데이터를 생성합니다.

이처럼 파이썬을 사용하여 음성 변환과 음성 합성을 위한 다양한 라이브러리와 도구를 활용할 수 있습니다. 이러한 기술은 음성 인터페이스, 음성 보이스 오버 등 다양한 분야에서 활용될 수 있으며, 더욱 혁신적이고 풍부한 음성 AI 기술의 발전을 기대해 볼 수 있습니다.