“语音触发”检测答案

【问题标题】："Voice trigger" detection“语音触发”检测
【发布时间】：2010-10-28 11:10:41
【问题描述】：

我有一个语音应用程序，如果能够使用“触发词”开始录制音频，该应用程序将会大大改进。我不需要完整的语音文本引擎，只需要可靠/有效地检测触发词的能力。

我想知道是否有任何专门的语音引擎支持这个特定的用例，或者有任何库/方法来开发这种单一用途的检测引擎。理想情况下，我希望它能够在嘈杂的环境中工作，但它可以针对单个用户的声音进行训练。

研究论文/主题的指针也将不胜感激，所以我知道要问什么。

【问题讨论】：

必须是口语吗？拍手或吹口哨会容易得多。
如果你的项目是开源的，请分享链接，我正在做一个类似的项目

标签： speech-recognition signal-processing voice voice-recording

【解决方案1】：

好的，我可能完全不在了，但是使用功能齐全的语音识别库对于您的用例来说可能有点矫枉过正..

如果您可以接受一些更简单但仍受音频驱动的东西，请考虑以下几点：

检测拍手非常简单。拍手将在整个音频频带上产生高能量。检测它比完整的语音识别更简单且计算成本更低。

简而言之，您录制音频，对数据执行（短时间）FFT 并检测您在 80% 的可用频率区间中具有高能量的情况。由于简单的录音室/麦克风设置，80% 可以解决任何相位问题。然后根据口味调整阈值，就完成了。

也可以对语音识别进行同样的操作，但会消耗吨的 CPU 周期。

【讨论】：

这很有趣。但是你能用这种方式检测语言吗？ “嘿 Siri”和“OK Google”就是这样吗？

【解决方案2】：

什么操作系统？例如，我想知道Speech functionality in Windows Vista 是否会帮助你。对于任何语音分析器来说，识别单个单词似乎是最简单的问题。

【讨论】：

识别单个短语会更容易。要识别的关键词或短语越长，就越容易避免误报。这就是为什么有限语法识别比听写更容易、更可靠的原因。

【解决方案3】：

就在几天前，有人问a question 关于 linux 上语音识别的可能性。您要求的是其中的一个子集，我认为其中一些答案可能包含有用的信息。 joeforker 的答案中链接的文章非常有趣。

【讨论】：

【解决方案4】：

我有一个录音 win32 应用程序。我使用 OCX 来管理录制/播放。

我知道这并不完全是您所要求的解决方案，但您可能需要考虑使用脚踏板。它的编程很简单，并且非常像一个口语来开始/停止录音。检查这些：www.pedalpower.com

希望对你有帮助，

雷纳尔多。

【讨论】：

【解决方案5】：

我在 Red5 项目中的一位同事创建了一个类似的演示，使用触发词来对图像存储库运行搜索。说“猫”会使猫的图像在大约一秒钟内出现。客户端应用程序是用 Flash 编写的，后端使用免费的 Sphinx 库在 Red5 上运行。你当然可以毫不费力地用 Sphinx 做你想做的事。
狮身人面像项目：http://cmusphinx.sourceforge.net/sphinx4/

【讨论】：