【问题标题】:How to increase Google's Speech Recognition accuracy for separated numbers如何提高 Google 对分隔数字的语音识别准确度
【发布时间】:2024-01-02 09:03:01
【问题描述】:

我们将此图片提供给我们的用户:

enter image description here

这张图片代表不同的数字。我们所有的用户都在他们的麦克风里读到“11-0-9-5”。

我们使用 Google Speech Engine,它会解释这个结果:

“1109 5”。

这使我们无法将口语与预期结果进行比较。而我们被困在了这个阶段。

有没有办法告诉 Google 的语音识别从字面上和单独地理解口语数字,而不是将它们连接在一起?

【问题讨论】:

标签: google-speech-api


【解决方案1】:

您可以尝试使用语音上下文,以便限制 GoogleSpeechEngine 坚持预定义的数字。 https://cloud.google.com/speech-to-text/docs/reference/rest/v1/RecognitionConfig#SpeechContext

因此,如果您将 0,1,2,3,4,5,6,7,8,9,10,11 指定为可能的短语,Google 不应发回 1109,因为它不在上下文中。

但是,使用这种方法,您必须列出所有可能的值,这可能很乏味。有些案子是解决不了的。例如,如果有人将 11 发音为 1-1。

【讨论】:

    最近更新 更多