【发布时间】:2018-09-17 07:38:33
【问题描述】:
对于流式音频数据,Google Speech API 的最快预期响应时间是多少?我正在向 API 发送一个音频流,并以 2000 毫秒的延迟接收中间结果,我希望我能将其降至 1000 毫秒以下。我测试了不同的采样率和不同的语音模型。
【问题讨论】:
标签: google-cloud-platform speech-recognition speech-to-text google-speech-api
对于流式音频数据,Google Speech API 的最快预期响应时间是多少?我正在向 API 发送一个音频流,并以 2000 毫秒的延迟接收中间结果,我希望我能将其降至 1000 毫秒以下。我测试了不同的采样率和不同的语音模型。
【问题讨论】:
标签: google-cloud-platform speech-recognition speech-to-text google-speech-api
如果您真的关心响应时间,最好在您自己的基础架构上使用基于 Kaldi 的服务。 https://github.com/alumae/kaldi-gstreamer-server 和 https://github.com/Kaljurand/dictate.js 之类的东西
【讨论】:
恐怕由于服务的性质,响应时间无法衡量或保证。我们不知道幕后做了什么,事实上没有响应时间的 SLA,即使有SLA for availability。
可以帮助您构建一个好的请求:
您可能需要查看特定用例的以下链接,以了解它们如何解决延迟问题:
【讨论】:
Google Cloud Speech 本身运行速度非常快,您可以查看您的麦克风被转录的速度https://cloud.google.com/speech-to-text/。
您可能会遇到缓冲问题,您使用的工具可能会在发送(缓冲区刷新)到底层设备(流)之前缓冲数据。
您可以了解如何将该工具的输出缓冲区减少到较低的值,例如2Kb,因此数据将更快地到达 Node 应用程序和 Google 服务。 Google 建议发送等于 100 毫秒缓冲区大小的数据。
【讨论】: