如何提高 Google 对分隔数字的语音识别准确度答案

【问题标题】：How to increase Google's Speech Recognition accuracy for separated numbers如何提高 Google 对分隔数字的语音识别准确度
【发布时间】：2024-01-02 09:03:01
【问题描述】：

我们将此图片提供给我们的用户：

enter image description here

这张图片代表不同的数字。我们所有的用户都在他们的麦克风里读到“11-0-9-5”。

我们使用 Google Speech Engine，它会解释这个结果：

“1109 5”。

这使我们无法将口语与预期结果进行比较。而我们被困在了这个阶段。

有没有办法告诉 Google 的语音识别从字面上和单独地理解口语数字，而不是将它们连接在一起？

【问题讨论】：

那么您尝试使用 SpeechContext 了吗？
相关*.com/questions/55525503/…

标签： google-speech-api

【解决方案1】：

您可以尝试使用语音上下文，以便限制 GoogleSpeechEngine 坚持预定义的数字。 https://cloud.google.com/speech-to-text/docs/reference/rest/v1/RecognitionConfig#SpeechContext

因此，如果您将 0,1,2,3,4,5,6,7,8,9,10,11 指定为可能的短语，Google 不应发回 1109，因为它不在上下文中。

但是，使用这种方法，您必须列出所有可能的值，这可能很乏味。有些案子是解决不了的。例如，如果有人将 11 发音为 1-1。

【讨论】：