【问题标题】:What (short) words are best recognized by Google speech API?Google Speech API 最能识别哪些(短)词?
【发布时间】:2014-04-10 02:36:59
【问题描述】:

关于 SO 的第一个问题,希望它不会离左边太远。

动机: 我正在开发(一个分支)Benoit 的 google2ubuntu 语音控制工具。

目前,要使其工作,用户必须在开始说出命令之前按热键来调用程序。 我已经实现了一个启动指令模式,其中一个守护进程(实际上是 bash 脚本)在后台持续运行,监听超过预设阈值的声音,录制 2 秒,然后将录音发送到 Google 的语音到文本 API 进行转换。 它获取返回的结果,然后检查启动指令,然后启动实际程序。

我正在寻找可被 Google API 可靠识别的启动指令。 API 返回它认为您所说内容的文本表示形式,以及表明其猜测与您的录音匹配程度的置信度。

使用它,我们可以比较不同热词的检测率: 例如,短语“okay Google”(不足为奇)非常容易识别,并定期返回类似的结果

"hypotheses": {"utterance": "Okay Google", "confidence": 0.95967352}

更通用的“好的计算机”虽然没有被认为是可靠的,但在 0.85 的平均置信水平上仍然没问题。我测试过的一些更晦涩的短语包括“okay Jarvis”(如果我们要制造一台语音控制的计算机......),不幸的是,它在一半的时间里以高置信度水平命中和错过,否则完全错过。 另一方面,“Okay Linux”根本无法识别。

问题:有谁知道 Google API 可以可靠识别什么样的短语?

好的热门词的例子是日常演讲中不常见的短语(否则我们每次交谈时都会启动程序),但“特别”足以被愚蠢的计算机识别。

【问题讨论】:

  • 在我访问过的其他 SE 网站上(至少是数学网站),这类问题有一个 big-list 标签,可能有很多答案;这里似乎没有,但我已标记为创建此社区 wiki。

标签: google-api speech-recognition speech speech-to-text


【解决方案1】:

最好使用离线关键字检测器来收听,例如最近在 CMUSphinx 中实现的 on。因此无需将所有音频流式传输到谷歌,无需保持互联网连接并且响应速度很快。关键字是可配置的,并且可以调整检测阈值。您的竞争对手已经将其集成到他们的助手中,例如Pocketsphinx Android Demo。也可以使用 python api 中的关键字定位。

【讨论】:

  • 谢谢!尽管这并不是我原来帖子的真正答案,但我一直在寻找离线语音识别工具包。我会调查这个! (P.S. 这里没有竞争对手,哈哈。我只是一个业余爱好者,在一个小项目中玩得很开心:P)
猜你喜欢
  • 2017-02-24
  • 2022-10-18
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-12-07
  • 1970-01-01
相关资源
最近更新 更多