【问题标题】:Google Speech streaming recognition slow response time谷歌语音流识别响应时间慢
【发布时间】:2018-09-17 07:38:33
【问题描述】:

对于流式音频数据,Google Speech API 的最快预期响应时间是多少?我正在向 API 发送一个音频流,并以 2000 毫秒的延迟接收中间结果,我希望我能将其降至 1000 毫秒以下。我测试了不同的采样率和不同的语音模型。

【问题讨论】:

    标签: google-cloud-platform speech-recognition speech-to-text google-speech-api


    【解决方案1】:

    如果您真的关心响应时间,最好在您自己的基础架构上使用基于 Kaldi 的服务。 https://github.com/alumae/kaldi-gstreamer-serverhttps://github.com/Kaljurand/dictate.js 之类的东西

    【讨论】:

    • 这个速度有多快,为什么?它可以在 1000 毫秒内响应吗?报告的响应时间是多少?我根据他们 github 页面上的链接在bark.phon.ioc.ee/dictate 上测试了他们的服务。它似乎比 Google 的 Speech API 慢。我想相当肯定,使用这将是一个重大改进,因为我预计设置它需要大量时间。
    • 会更快,因为你在自己的服务器上运行它并且可以控制负载。如果负载过多,您只需扩展工人。而且它会比谷歌便宜。
    【解决方案2】:

    恐怕由于服务的性质,响应时间无法衡量或保证。我们不知道幕后做了什么,事实上没有响应时间的 SLA,即使有SLA for availability

    可以帮助您构建一个好的请求:

    1. 例如,减少 100 毫秒的帧大小可以确保在延迟和效率之间取得良好的平衡。
    2. 关注Best Practices 将帮助您发出干净的请求,从而减少延迟。

    您可能需要查看特定用例的以下链接,以了解它们如何解决延迟问题:

    【讨论】:

      【解决方案3】:

      Google Cloud Speech 本身运行速度非常快,您可以查看您的麦克风被转录的速度https://cloud.google.com/speech-to-text/

      您可能会遇到缓冲问题,您使用的工具可能会在发送(缓冲区刷新)到底层设备(流)之前缓冲数据。

      您可以了解如何将该工具的输出缓冲区减少到较低的值,例如2Kb,因此数据将更快地到达 Node 应用程序和 Google 服务。 Google 建议发送等于 100 毫秒缓冲区大小的数据。

      【讨论】:

        猜你喜欢
        • 2016-11-04
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多