在 google-cloud-speech 中识别 .wav 音频文件的问题

【问题标题】：Issue in recognizing .wav audio files in google-cloud-speech在 google-cloud-speech 中识别 .wav 音频文件的问题
【发布时间】：2018-08-09 19:09:39
【问题描述】：

我已经使用谷歌云语音到文本 API 将音频转换为文本。

对于.raw 文件，它工作正常

但是对于.wav 文件，它给了我类似的错误：

Google::Gax::RetryError 异常：GaxError 异常发生在未归类为瞬态的重试方法，由 3:Must 引起使用单声道（单声道）音频，但 WAV 标头表示 2 个声道。

我正在使用 Speech-to-text API 的 ruby 实现。

我已经保存在 assets 中的 test.wav 文件。

我使用了 MULAW 作为编码，省略了采样率。

有人可以帮我解决这个问题吗？

【问题讨论】：

标签： speech-to-text google-cloud-speech

【解决方案1】：

您可以使用一个 Beta 功能来指定音频通道的数量，以便通过多个通道 [1] 转录音频。

如果您正在执行 POST 请求，那么您可以指定：

'audioChannelCount': 2,

'enableSeparateRecognitionPerChannel': true

当您在不同的频道（例如电话）上记录不同的人时，第二个特别有用。您可以在下面的文档中阅读更多相关信息，它还提供了您在使用 Java 或 Python 客户端库时将使用的代码。

如果您想使用一个通道或每个通道使用一个音频，我建议您查看 sox 工具 [2]，它允许您以编程方式将通道组合为 1 或使用混音来获得每个通道的音频。

[1]https://cloud.google.com/speech-to-text/docs/multi-channel

[2]http://sox.sourceforge.net/sox.html

【讨论】：