[swift] Swift Core ML을 사용하여 자동 음성 변환을 수행하는 방법은 무엇인가요?

11 Dec 2023

swift

모델을 가져온 후에는 AVAudioEngine 및 Speech framework를 사용하여 실시간으로 음성을 캡처할 수 있습니다. 그런 다음 Core ML 모델을 사용하여 음성을 텍스트로 변환하고 결과를 처리할 수 있습니다.

다음은 Swift 코드의 간단한 예제입니다:

import UIKit
import CoreML
import AVFoundation
import Speech

class ViewController: UIViewController, AVAudioRecorderDelegate {

    let audioEngine = AVAudioEngine()
    let speechRecognizer: SFSpeechRecognizer? = SFSpeechRecognizer()
    let request = SFSpeechAudioBufferRecognitionRequest()
    var recognitionTask: SFSpeechRecognitionTask?

    // ...

    func startRecording() {
        // Start capturing audio
        let node = audioEngine.inputNode
        let recordingFormat = node.outputFormat(forBus: 0)

        node.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer, when) in
            self.request.append(buffer)
        }

        audioEngine.prepare()
        do {
            try audioEngine.start()
        } catch {
            print("Error starting audio engine: \(error.localizedDescription)")
        }

        // Transcribe audio using Core ML model
        guard let myModel = try? VNCoreMLModel(for: YourCoreMLModel().model) else { return }
        let request = VNCoreMLRequest(model: myModel, completionHandler: { request, error in
            // Process the transcription result
            if let transcription = request.results as? [VNRecognizedTextObservation] {
                let transcribedText = transcription[0].recognizedText
                print(transcribedText)
                // Handle transcribed text here
            }
        })

        // Perform transcription request
        do {
            let requesHandler = VNImageRequestHandler(cvPixelBuffer: buffer)
            try requestHandler.perform([request])
        } catch {
            print("Error performing transcription request: \(error.localizedDescription)")
        }

    }
}

이 예제는 AVAudioEngine를 사용하여 오디오 입력을 캡처하고, Speech framework를 사용하여 음성을 텍스트로 변환하기 위해 Core ML 모델을 사용하는 방법을 보여줍니다. 실제로 이 기능을 구현하려면 필요한 권한 및 오디오 입력 처리를 추가해야 할 수 있습니다.

더 많은 정보는 다음 문서를 참조하세요:

그 밖의 자세한 내용은 Swift Programming Guide을 참고하세요.