从 iOS 上的麦克风输入检测语音活动答案

【问题标题】：Voice Activity Detection from mic input on iOS从 iOS 上的麦克风输入检测语音活动
【发布时间】：2018-01-13 16:45:10
【问题描述】：

我正在开发一款基于语音的 AI 的 iOS 应用；即它的目的是从麦克风获取语音输入，将其转换为文本，将其发送给 AI 代理，然后通过扬声器输出返回的文本。虽然使用按钮开始和停止录制语音（语音识别用语音套件，人工智能用 API.AI，输出用亚马逊的 Polly），但我一切正常。

我需要的是让麦克风始终打开，并在用户开始和结束谈话时自动开始和停止录制用户的声音。此应用程序是为非正统环境开发的，用户将无法访问屏幕（但他们将拥有一个用于录制文本的高端猎枪麦克风）。

我的研究表明，这块拼图被称为“语音活动检测”，似乎是整个基于语音的 AI 系统中最困难的步骤之一。

我希望有人可以提供一些简单的 (Swift) 代码来自己实现它，或者指出我可以在这个项目中实现的一些体面的库/SDK 的方向。

【问题讨论】：

【解决方案1】：

对于良好的 VAD 算法实现，您可以使用py-webrtcvad。

它是一个用于 C 代码的 Python 接口，您可以从项目中导入 C 文件并从 swift 中使用它们。

【讨论】：

谢谢！实际上，我已经掌握了该库的 iOS 端口，但还没有完全弄清楚如何将其应用于从麦克风传入的缓冲区，而不仅仅是将其指向现有的音频文件......任何提示？代码示例？
API逐帧处理，所以处理buffer应该没有问题。