【问题标题】:Voice Activity Detection from mic input on iOS从 iOS 上的麦克风输入检测语音活动
【发布时间】:2018-01-13 16:45:10
【问题描述】:

我正在开发一款基于语音的 AI 的 iOS 应用;即它的目的是从麦克风获取语音输入,将其转换为文本,将其发送给 AI 代理,然后通过扬声器输出返回的文本。虽然使用按钮开始和停止录制语音(语音识别用语音套件,人工智能用 API.AI,输出用亚马逊的 Polly),但我一切正常。

我需要的是让麦克风始终打开,并在用户开始和结束谈话时自动开始和停止录制用户的声音。此应用程序是为非正统环境开发的,用户将无法访问屏幕(但他们将拥有一个用于录制文本的高端猎枪麦克风)。

我的研究表明,这块拼图被称为“语音活动检测”,似乎是整个基于语音的 AI 系统中最困难的步骤之一。

我希望有人可以提供一些简单的 (Swift) 代码来自己实现它,或者指出我可以在这个项目中实现的一些体面的库/SDK 的方向。

【问题讨论】:

    标签: ios swift artificial-intelligence voice-recognition voice-recording


    【解决方案1】:

    对于良好的 VAD 算法实现,您可以使用py-webrtcvad

    它是一个用于 C 代码的 Python 接口,您可以从项目中导入 C 文件并从 swift 中使用它们。

    【讨论】:

    • 谢谢!实际上,我已经掌握了该库的 iOS 端口,但还没有完全弄清楚如何将其应用于从麦克风传入的缓冲区,而不仅仅是将其指向现有的音频文件......任何提示?代码示例?
    • API逐帧处理,所以处理buffer应该没有问题。
    猜你喜欢
    • 2011-09-05
    • 1970-01-01
    • 2015-11-26
    • 1970-01-01
    • 2013-09-18
    • 2021-09-06
    • 2020-09-12
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多