【问题标题】:Correct recognition results of Google Speech APIGoogle Speech API 的正确识别结果
【发布时间】:2016-10-28 07:13:20
【问题描述】:

是否可以使用示例数据训练 Google Speech API 以帮助在我的应用程序中进行识别?

我的意思是一种类似于 wit.ai 提供并描述为here 的方法(即使该示例适用于 nlp 处理)。基本上,如果您可以预测用户将与您的机器人进行的交互,您可以训练它以更好地执行。例如,我知道将使用的城市子集,例如:当我说Zurich 时,我似乎无法让机器人理解我,它变成了SyriaSiberia,但我已经知道这是不可能的。因此,假设我可以先上传要使用的首选单词列表,然后如果找不到匹配项,则回退到标准识别或其他类似方法,我认为它会取得更好的结果。

知道是否可能以及如何实现?我知道这些 API 处于测试阶段,可能会发生变化,但我仍然想尝试一下。

我可以上传一些我目前正在做的代码示例,尽管到目前为止它只是发送音频并分析结果,所以并没有真正接近这个问题。

【问题讨论】:

    标签: google-api speech-recognition


    【解决方案1】:

    recognition config 中,您可以指定替代项以使用 maxAlternatives 字段(最多 30 个)返回给您。一旦您有信心地拥有 30 个备选方案,您将有信心地拥有Syria 信心地0.5、信心地Siberia 信心地0.01 和信心地Zurich 信心地0.1。通常存在正确的答案,尽管它可能不在顶部。您可以根据自己的状态选择最佳替代方案。

    【讨论】:

    • 别忽视,这是一个业余项目,我没有时间处理它,但是一旦我回到这个问题上,我会告诉你你的回答是否对我有帮助(我已经注意到了信心,但可能忽略了多种选择,我觉得只有一个不太确定)
    【解决方案2】:

    当前的 Google Cloud Speech-to-Text API 允许用户指定为语音识别任务提供提示的单词和短语列表。

    来自https://cloud.google.com/speech-to-text/docs/basics (mirror):

    speechContext -(可选)包含用于处理此音频的附加上下文信息。上下文包含以下子字段: 短语 - 包含为语音识别任务提供提示的单词和短语列表。

    更多详情请见:https://cloud.google.com/speech-to-text/docs/basics#phrase-hints(mirror)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2015-12-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-24
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多