【发布时间】:2014-04-10 02:36:59
【问题描述】:
关于 SO 的第一个问题,希望它不会离左边太远。
动机: 我正在开发(一个分支)Benoit 的 google2ubuntu 语音控制工具。
目前,要使其工作,用户必须在开始说出命令之前按热键来调用程序。 我已经实现了一个启动指令模式,其中一个守护进程(实际上是 bash 脚本)在后台持续运行,监听超过预设阈值的声音,录制 2 秒,然后将录音发送到 Google 的语音到文本 API 进行转换。 它获取返回的结果,然后检查启动指令,然后启动实际程序。
我正在寻找可被 Google API 可靠识别的启动指令。 API 返回它认为您所说内容的文本表示形式,以及表明其猜测与您的录音匹配程度的置信度。
使用它,我们可以比较不同热词的检测率: 例如,短语“okay Google”(不足为奇)非常容易识别,并定期返回类似的结果
"hypotheses": {"utterance": "Okay Google", "confidence": 0.95967352}
更通用的“好的计算机”虽然没有被认为是可靠的,但在 0.85 的平均置信水平上仍然没问题。我测试过的一些更晦涩的短语包括“okay Jarvis”(如果我们要制造一台语音控制的计算机......),不幸的是,它在一半的时间里以高置信度水平命中和错过,否则完全错过。 另一方面,“Okay Linux”根本无法识别。
问题:有谁知道 Google API 可以可靠识别什么样的短语?
好的热门词的例子是日常演讲中不常见的短语(否则我们每次交谈时都会启动程序),但“特别”足以被愚蠢的计算机识别。
【问题讨论】:
-
在我访问过的其他 SE 网站上(至少是数学网站),这类问题有一个
big-list标签,可能有很多答案;这里似乎没有,但我已标记为创建此社区 wiki。
标签: google-api speech-recognition speech speech-to-text