파이썬을 사용한 음향 신호 압축 및 임베딩 기술 연구

25 Sep 2023

python

개요

음향 신호는 많은 데이터를 가지고 있어서 전송 및 저장 시 많은 용량이 필요합니다. 이러한 용량 문제를 해결하기 위해 음향 신호 압축 기술이 사용됩니다. 또한, 음향 신호를 다른 데이터에 숨기는 임베딩 기술은 음성 인식이나 음악 저작권 보호 등에 활용됩니다. 이번 연구에서는 파이썬을 사용하여 음향 신호 압축 및 임베딩 기술을 연구합니다.

음향 신호 압축 기술

1. 푸리에 변환을 이용한 압축

음향 신호를 푸리에 변환하여 주파수 영역으로 변환한 후에 필요한 정보만 남기고 나머지는 버림으로써 압축하는 방법입니다. 이 방법은 고주파 영역이나 약한 음향 신호의 경우 효과적인 압축을 할 수 있습니다.

import numpy as np

# 음향 신호를 푸리에 변환
def apply_fourier_transform(sound_signal):
    frequency_domain = np.fft.fft(sound_signal)
    return frequency_domain

# 필요한 정보만 남기고 나머지는 버림
def compress_sound_signal(frequency_domain, compression_ratio):
    compressed_frequency_domain = frequency_domain[:int(len(frequency_domain) * compression_ratio)]
    return compressed_frequency_domain

2. 허프만 코딩을 이용한 압축

허프만 코딩은 음향 신호에서 자주 나타나는 패턴이나 문자를 짧은 비트로 압축하여 효과적으로 용량을 줄이는 방법입니다.

import heapq
from collections import defaultdict

# 음향 신호에서 문자별 빈도수 계산
def calculate_frequency(sound_signal):
    frequency_dict = defaultdict(int)
    for s in sound_signal:
        frequency_dict[s] += 1
    return frequency_dict

# 허프만 트리 생성
def build_huffman_tree(frequency_dict):
    heap = [[weight, [symbol, ""]] for symbol, weight in frequency_dict.items()]
    heapq.heapify(heap)
    while len(heap) > 1:
        lo = heapq.heappop(heap)
        hi = heapq.heappop(heap)
        for pair in lo[1:]:
            pair[1] = '0' + pair[1]
        for pair in hi[1:]:
            pair[1] = '1' + pair[1]
        heapq.heappush(heap, [lo[0] + hi[0]] + lo[1:] + hi[1:])
    huffman_tree = sorted(heapq.heappop(heap)[1:], key=lambda p: (len(p[-1]), p))
    return huffman_tree

# 허프만 코딩을 적용하여 음향 신호 압축
def compress_sound_signal(sound_signal, huffman_tree):
    encoded_sound_signal = ""
    symbol_dict = dict(huffman_tree)
    for s in sound_signal:
        encoded_sound_signal += symbol_dict[s]
    return encoded_sound_signal

음향 신호 임베딩 기술

1. 주파수 도메인 임베딩

음향 신호의 주파수 도메인에서 특정 주파수 영역을 이용하여 다른 데이터를 숨기는 방법입니다. 이 방법은 음성 인식 시스템에서 사용되거나 음악 저작권을 보호하기 위해 활용될 수 있습니다.

import scipy.io.wavfile as wav

# 주파수 도메인에서 특정 주파수 영역 값 변경
def embed_data_in_frequency_domain(sound_signal, embedded_data, start_frequency, end_frequency):
    sample_rate, audio_data = wav.read(sound_signal)

    # 푸리에 변환을 통해 주파수 도메인으로 변환
    frequency_domain = np.fft.fft(audio_data)

    # 특정 주파수 영역 값 변경
    frequency_domain[start_frequency:end_frequency] = embedded_data

    # 역 푸리에 변환을 통해 시간 도메인으로 변환
    embedded_audio_data = np.real(np.fft.ifft(frequency_domain))
    
    # 음향 신호를 WAV 파일로 출력
    wav.write('embedded_sound.wav', sample_rate, embedded_audio_data)

2. 시간 도메인 임베딩

음향 신호의 시간 도메인에서 특정 구간에서 다른 데이터를 숨기는 방법입니다. 이 방법은 음성 메시지를 숨기거나 음악 재생 시 특정 구간에 메시지를 삽입하는 등 다양한 용도로 사용될 수 있습니다.

import wave

# 시간 도메인에서 특정 구간 값 변경
def embed_data_in_time_domain(sound_signal, embedded_data, start_time, end_time):
    with wave.open(sound_signal, 'rb') as wav_file:
        sample_width = wav_file.getsampwidth()
        sample_rate = wav_file.getframerate()
        channel_num = wav_file.getnchannels()
        total_frames = wav_file.getnframes()

        # 특정 구간에 대한 프레임 인덱스 계산
        start_frame = int(start_time * sample_rate)
        end_frame = int(end_time * sample_rate)

        # 음향 신호 데이터 읽기
        audio_data = np.frombuffer(wav_file.readframes(total_frames), dtype=np.int16)

        # 특정 구간 값 변경
        audio_data[start_frame:end_frame] = embedded_data

        # 음향 신호를 WAV 파일로 출력
        with wave.open('embedded_sound.wav', 'wb') as embedded_wav_file:
            embedded_wav_file.setparams((channel_num, sample_width, sample_rate, total_frames, wav_file.getcomptype(), wav_file.getcompname()))
            embedded_wav_file.writeframes(audio_data.tobytes())

결론

#음향신호압축 #음향신호임베딩