파이썬으로 OpenCV를 이용하여 동영상에서 음성 인식하기

이 글에서는 파이썬과 OpenCV를 사용하여 동영상에서 음성을 인식하는 방법에 대해 알아보겠습니다.

필요한 라이브러리 설치하기

먼저, 파이썬에서 OpenCV와 음성 인식을 위해 필요한 라이브러리를 설치해야 합니다. 아래 명령을 사용하여 필요한 패키지를 설치합니다.

pip install opencv-python
pip install pytesseract
pip install SpeechRecognition

동영상에서 음성 추출하기

동영상에서 음성을 추출하기 위해 파이썬의 SpeechRecognition 라이브러리를 사용합니다. 아래는 동영상 파일에서 음성을 추출하는 예제 코드입니다.

import cv2
import speech_recognition as sr

# 동영상 파일 열기
video = cv2.VideoCapture('video.mp4')

# 음성 추출을 위한 인식기 설정
r = sr.Recognizer()

while video.isOpened():
    ret, frame = video.read()
    
    # 현재 프레임에서 텍스트 추출
    # (주석 처리된 부분에서 필요한 이미지 처리 과정을 추가할 수 있습니다.)
    # 추출한 이미지를 img 변수에 할당한다는 가정하에 예시를 작성하였습니다.
    
    img = frame
    text = pytesseract.image_to_string(img)
    
    # 인식된 텍스트를 음성으로 변환
    with sr.Microphone() as source:
        audio = r.record(text)
        
    # 변환된 음성 출력
    recognized_text = r.recognize_google(audio)
    print('Recognized Text:', recognized_text)

    cv2.imshow('Video', frame)
    
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

video.release()
cv2.destroyAllWindows()

위 코드에서 동영상 파일 이름을 ‘video.mp4’로 변경하고, 필요에 따라 음성 인식 및 추출 과정을 수정하여 사용할 수 있습니다.

참고 자료

#python #opencv #음성인식 #영상처리