在语音识别期间获得替代建议答案

【问题标题】：Get alternative suggestions during speech recognition在语音识别期间获得替代建议
【发布时间】：2020-05-11 22:01:33
【问题描述】：

我想使用离线语音到文本识别，主要是德语。

特别想用Mozilla DeepSpeech（百度DeepSpeech架构的TensorFlow实现），但我担心音频输入的音频质量不够好，产生低错误率（WER - word error rates）。

（英文）示例：

说话者说“知道”，但引擎可能已经理解“flow”或“show”或“go” 或 “知道”。

我想从引擎中获取[flow, show, go, know]，以便之后我可以手动决定哪个建议最适合。我怎样才能得到这个？

其他语音转文本引擎是否提供这种可能性？

【问题讨论】：

标签： speech-recognition speech-to-text mozilla-deepspeech

【解决方案1】：

DeepSpeech 已更新 releases。为了获得更好的推理结果，您需要遵循他们的说明和建议，例如，您的输入音频文件应为 16000 Hz、单声道和 16 位。音频重采样可能会影响推理质量，请记住这一点。我个人使用SoX 进行重采样，但还有其他选项samplerate。另外，他们的forum也有很多好的建议。

有一个名为 SpeechRecognition 的 Python 库。他们有一些用于语音到文本的离线模型和在线 API 服务。

【讨论】：