[파이썬] 음성 데이터의 음성 합성을 위한 음성 변환 제어

05 Sep 2023

python

음성 합성은 컴퓨터가 음성을 생성하고 구사하도록 하는 기술로, 인공지능(AI)이나 음성 인식 시스템에서 주로 사용됩니다. 음성 합성은 다양한 목적에 따라 다른 음성으로 변환하는 것을 가능하게 합니다. 이번 블로그 포스트에서는 파이썬을 사용하여 음성 변환 제어를 하는 방법에 대해 알아보겠습니다.

음성 데이터 불러오기

음성 데이터를 불러오기 위해서는 파이썬의 wave 모듈을 사용할 수 있습니다. 다음은 음성 데이터를 불러오는 예제 코드입니다.

import wave

def load_audio(file_path: str) -> wave.Wave_read:
    with wave.open(file_path, 'rb') as audio_file:
        return audio_file

# 음성 데이터 불러오기
audio = load_audio('sample.wav')

위의 코드에서 load_audio 함수는 음성 데이터 파일의 경로를 입력받아 wave.Wave_read 형태로 반환해주는 함수입니다. wave.open 함수를 사용하여 파일을 열고, with 문을 사용하여 파일을 자동으로 닫아줍니다.

음성 변환 제어

음성 변환 제어를 위해서는 파이썬의 음성 변환 라이브러리를 사용할 수 있습니다. 대표적인 음성 변환 라이브러리로는 pyworld이 있습니다. pyworld은 파이썬에서 직관적이고 손쉽게 음성 데이터를 조작할 수 있는 기능을 제공합니다.

import pyworld as pw

def pitch_shift(audio: wave.Wave_read, semitones: float) -> wave.Wave_write:
    # 음성 데이터에서 파라미터 추출
    samples = audio.readframes(audio.getnframes())
    params = pw.wav2world(samples.astype(float), audio.getframerate())

    # 음높이 변환
    params[0] += semitones

    # 파라미터에서 음성 데이터로 변환
    synthesized = pw.synthesize(params[0], params[1], params[2], audio.getframerate())

    # 변환된 음성 데이터 반환
    return synthesized

# 음성 데이터 읽기
audio = load_audio('sample.wav')

# 음성 변환 제어
semitones = 2.0  # 2 반음 올리기
transformed_audio = pitch_shift(audio, semitones)

위의 코드에서 pitch_shift 함수는 입력받은 음성 데이터의 음높이를 변환하여 반환하는 함수입니다. pw.wav2world 함수를 사용하여 음성 데이터에서 파라미터를 추출하고, 추출한 파라미터를 조작하여 원하는 음높이 변환을 구현합니다. 마지막으로, pw.synthesize 함수를 사용하여 변환된 파라미터를 다시 음성 데이터로 변환합니다.

음성 합성 결과 저장

음성 합성 결과를 저장하려면 파이썬의 wave 모듈을 사용하여 저장할 수 있습니다. 다음은 음성 합성 결과를 저장하는 예제 코드입니다.

def save_audio(audio_data: np.ndarray, file_path: str):
    audio_data = audio_data.astype(np.int16)
    with wave.open(file_path, 'wb') as audio_file:
        audio_file.setparams((1, 2, 16000, 0, 'NONE', 'NONE'))
        audio_file.writeframes(audio_data.tobytes())

# 음성 데이터 저장
save_audio(transformed_audio, 'transformed.wav')

위의 코드에서 save_audio 함수는 파이썬의 NumPy 배열 형태인 audio_data를 받아와서 음성 파일로 저장하는 함수입니다. wave.open 함수를 사용하여 파일을 열고, setparams 함수를 사용하여 저장할 음성 데이터의 형식을 설정합니다. 마지막으로, writeframes 함수를 사용하여 배열의 데이터를 파일에 저장합니다.

결론

파이썬을 사용하여 음성 데이터의 음성 합성을 위한 음성 변환 제어를 구현하는 방법을 살펴보았습니다. 음성 데이터를 불러오고, 원하는 변환을 수행한 후 합성 결과를 저장하는 방법을 알아보았습니다. 이러한 기술을 응용하여 음성 합성을 세밀하게 제어할 수 있습니다. 음성 합성은 음성 인식에서 중요한 역할을 하는 기술이므로, 음성 변환 제어 기술을 잘 활용하여 다양한 분야에서 활용할 수 있습니다.