【发布时间】:2024-04-21 05:50:02
【问题描述】:
我正在尝试使用 Google Speech to Text API 转录 WAV 音频文件。 除了我经常点击的一个 WAV 文件之外,大部分文本提取工作都有效
未处理的错误 { 错误:3 INVALID_ARGUMENT:WAV 标头表示 不支持的格式。
我已推荐https://cloud.google.com/speech-to-text/docs/encoding
注意:Speech-to-Text 支持使用 LINEAR16 或 MULAW 编码的 WAV 文件 音频。
并尝试了两种编解码器,但仍然失败。
我试图通过 soxi 命令获取 wav 的详细信息
>> soxi org\ hearing.WAV
Input File : 'org hearing.WAV'
Channels : 1
Sample Rate : 22050
Precision : 13-bit
Duration : 00:14:59.99 = 19844721 samples ~ 67499.1 CDDA sectors
File Size : 9.99M
Bit Rate : 88.8k
Sample Encoding: 4-bit IMA ADPCM
请问是否支持编码格式“4-bit IMA ADPCM”?或者支持格式的对应编解码器是什么? https://cloud.google.com/speech-to-text/docs/encoding#audio-encodings
如果源文件中确实不是支持的编解码器,无论如何要使用某些 GCP 功能转换为支持 FLAC/WAV 的编解码器,然后在没有用户手动转换的情况下提取文本?因为我正在与需要虚拟友好提取功能的管理员打交道。
【问题讨论】: