[파이썬] pydub 오디오에서 음성 인식

07 Sep 2023

pydub

음성 인식(Speech Recognition)은 컴퓨터가 말을 이해하고 처리할 수 있도록 하는 기술입니다. 이 기술은 음성 명령을 감지하고 텍스트로 변환할 수 있어 많은 분야에서 활용되고 있습니다. Python에서는 pydub 라이브러리를 사용하여 오디오 파일에서 음성 인식을 구현할 수 있습니다.

pydub 소개

pydub은 오디오 파일을 쉽게 처리하고 조작할 수 있도록 도와주는 Python 라이브러리입니다. 이 라이브러리를 사용하면 오디오 파일에서 특정 부분을 추출하거나 변환하는 것이 간단해집니다.

pydub 설치

pydub 라이브러리를 설치하기 위해 터미널 또는 명령 프롬프트에서 다음 명령을 실행합니다.

pip install pydub

오디오 파일에서 음성 인식하는 방법

다음은 오디오 파일에서 음성을 인식하는 간단한 예제입니다.

from pydub import AudioSegment
import speech_recognition as sr

# 오디오 파일 불러오기
audio = AudioSegment.from_file("audio_file.wav", format="wav")

# 오디오 파일을 16KHz의 모노로 변환
audio = audio.set_channels(1).set_frame_rate(16000)

# 음성 인식 예제
r = sr.Recognizer()
text = r.recognize_google(audio)

print(text)

위의 예제 코드에서는 AudioSegment를 사용하여 오디오 파일을 로드하고, speech_recognition 라이브러리의 Recognizer 객체를 사용하여 음성 인식을 수행합니다. recognize_google 함수를 사용하여 Google의 음성 인식 엔진을 활용하여 음성을 텍스트로 변환합니다.

이렇게 변환된 텍스트는 print 함수를 사용하여 출력할 수 있습니다.

요약

pydub을 사용하여 Python에서 오디오 파일에서 음성을 인식하는 것은 간단하고 효과적입니다. 이를 통해 오디오 파일에서 음성 명령을 추출하거나 음성 데이터를 텍스트로 변환하여 다른 처리 작업을 수행할 수 있습니다. pydub을 활용하여 음성 인식 기능을 개발해 보세요!