【问题标题】:Issue in recognizing .wav audio files in google-cloud-speech在 google-cloud-speech 中识别 .wav 音频文件的问题
【发布时间】:2018-08-09 19:09:39
【问题描述】:

我已经使用谷歌云语音到文本 API 将音频转换为文本。

对于.raw 文件,它工作正常

但是对于.wav 文件,它给了我类似的错误:

Google::Gax::RetryError 异常:GaxError 异常发生在 未归类为瞬态的重试方法,由 3:Must 引起 使用单声道(单声道)音频,但 WAV 标头表示 2 个声道。

我正在使用 Speech-to-text API 的 ruby​​ 实现。

我已经保存在 assets 中的 test.wav 文件。

我使用了 MULAW 作为编码,省略了采样率。

有人可以帮我解决这个问题吗?

【问题讨论】:

    标签: speech-to-text google-cloud-speech


    【解决方案1】:

    您可以使用一个 Beta 功能来指定音频通道的数量,以便通过多个通道 [1] 转录音频。

    如果您正在执行 POST 请求,那么您可以指定:

    'audioChannelCount': 2,

    'enableSeparateRecognitionPerChannel': true

    当您在不同的频道(例如电话)上记录不同的人时,第二个特别有用。您可以在下面的文档中阅读更多相关信息,它还提供了您在使用 Java 或 Python 客户端库时将使用的代码。

    如果您想使用一个通道或每个通道使用一个音频,我建议您查看 sox 工具 [2],它允许您以编程方式将通道组合为 1 或使用混音来获得每个通道的音频。


    [1]https://cloud.google.com/speech-to-text/docs/multi-channel

    [2]http://sox.sourceforge.net/sox.html

    【讨论】:

      猜你喜欢
      • 2017-02-24
      • 2017-03-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多