【发布时间】:2018-01-13 16:45:10
【问题描述】:
我正在开发一款基于语音的 AI 的 iOS 应用;即它的目的是从麦克风获取语音输入,将其转换为文本,将其发送给 AI 代理,然后通过扬声器输出返回的文本。虽然使用按钮开始和停止录制语音(语音识别用语音套件,人工智能用 API.AI,输出用亚马逊的 Polly),但我一切正常。
我需要的是让麦克风始终打开,并在用户开始和结束谈话时自动开始和停止录制用户的声音。此应用程序是为非正统环境开发的,用户将无法访问屏幕(但他们将拥有一个用于录制文本的高端猎枪麦克风)。
我的研究表明,这块拼图被称为“语音活动检测”,似乎是整个基于语音的 AI 系统中最困难的步骤之一。
我希望有人可以提供一些简单的 (Swift) 代码来自己实现它,或者指出我可以在这个项目中实现的一些体面的库/SDK 的方向。
【问题讨论】:
标签: ios swift artificial-intelligence voice-recognition voice-recording