【问题标题】:25s Latency in Google Speech to TextGoogle Speech to Text 的 25 秒延迟
【发布时间】:2024-01-18 11:02:01
【问题描述】:

这是我在使用 Google Speech to Text Engine 时遇到的问题。我目前正在以 32kB 的块实时流式传输 16 位/16 kHz 音频。但是在发送音频和接收转录之间平均有 25 秒的延迟,这违背了实时转录的目的。

为什么会有这么高的延迟?

【问题讨论】:

  • 如果它对你有用,你可以接受你自己的好答案吗?
  • 您需要等待 24 小时才能接受自己的答案。
  • 伟大的雅各布,对不起,我不知道 :)

标签: streaming speech-to-text google-cloud-speech


【解决方案1】:

Google Speech to Text documentation 建议使用 100 毫秒的帧大小以最大限度地减少延迟。

32kB *(8 位/1 字节)*(1 个样本/16 位)*(1 秒/16000 个样本)=1 秒。

所以尝试发送 3.2kB 的块。这将平均延迟从 25 秒降至约 4 秒。

【讨论】:

  • 您能详细说明一下公式的工作原理吗?我面临同样的问题,但采样率为 44100。
  • 使用相同的公式,但将最后一项更改为 1/44100。然后用代数来解决右边有多少 kB 给你 100 毫秒。
  • 谢谢!这些值是千字节还是千比特?
  • kB = 千字节。你问的是这个吗?