【发布时间】:2024-01-02 09:03:01
【问题描述】:
我们将此图片提供给我们的用户:
这张图片代表不同的数字。我们所有的用户都在他们的麦克风里读到“11-0-9-5”。
我们使用 Google Speech Engine,它会解释这个结果:
“1109 5”。
这使我们无法将口语与预期结果进行比较。而我们被困在了这个阶段。
有没有办法告诉 Google 的语音识别从字面上和单独地理解口语数字,而不是将它们连接在一起?
【问题讨论】:
-
那么您尝试使用 SpeechContext 了吗?