谷歌语音流识别响应时间慢答案

【问题标题】：Google Speech streaming recognition slow response time谷歌语音流识别响应时间慢
【发布时间】：2018-09-17 07:38:33
【问题描述】：

对于流式音频数据，Google Speech API 的最快预期响应时间是多少？我正在向 API 发送一个音频流，并以 2000 毫秒的延迟接收中间结果，我希望我能将其降至 1000 毫秒以下。我测试了不同的采样率和不同的语音模型。

【问题讨论】：

【解决方案1】：

如果您真的关心响应时间，最好在您自己的基础架构上使用基于 Kaldi 的服务。 https://github.com/alumae/kaldi-gstreamer-server 和 https://github.com/Kaljurand/dictate.js 之类的东西

【讨论】：

这个速度有多快，为什么？它可以在 1000 毫秒内响应吗？报告的响应时间是多少？我根据他们 github 页面上的链接在bark.phon.ioc.ee/dictate 上测试了他们的服务。它似乎比 Google 的 Speech API 慢。我想相当肯定，使用这将是一个重大改进，因为我预计设置它需要大量时间。
会更快，因为你在自己的服务器上运行它并且可以控制负载。如果负载过多，您只需扩展工人。而且它会比谷歌便宜。

【解决方案2】：

恐怕由于服务的性质，响应时间无法衡量或保证。我们不知道幕后做了什么，事实上没有响应时间的 SLA，即使有SLA for availability。

可以帮助您构建一个好的请求：

您可能需要查看特定用例的以下链接，以了解它们如何解决延迟问题：

【讨论】：

【解决方案3】：

Google Cloud Speech 本身运行速度非常快，您可以查看您的麦克风被转录的速度https://cloud.google.com/speech-to-text/。

您可能会遇到缓冲问题，您使用的工具可能会在发送（缓冲区刷新）到底层设备（流）之前缓冲数据。

您可以了解如何将该工具的输出缓冲区减少到较低的值，例如2Kb，因此数据将更快地到达 Node 应用程序和 Google 服务。 Google 建议发送等于 100 毫秒缓冲区大小的数据。

【讨论】：