【问题标题】:Get alternative suggestions during speech recognition在语音识别期间获得替代建议
【发布时间】:2020-05-11 22:01:33
【问题描述】:

我想使用离线语音到文本识别,主要是德语。

特别想用Mozilla DeepSpeech(百度DeepSpeech架构的TensorFlow实现),但我担心音频输入的音频质量不够好,产生低错误率(WER - word error rates)。

(英文)示例:

说话者说“知道”,但引擎可能已经理解“flow”“show”“go” “知道”

我想从引擎中获取[flow, show, go, know],以便之后我可以手动决定哪个建议最适合。我怎样才能得到这个?

其他语音转文本引擎是否提供这种可能性?

【问题讨论】:

    标签: speech-recognition speech-to-text mozilla-deepspeech


    【解决方案1】:

    DeepSpeech 已更新 releases。为了获得更好的推理结果,您需要遵循他们的说明和建议,例如,您的输入音频文件应为 16000 Hz、单声道和 16 位。音频重采样可能会影响推理质量,请记住这一点。我个人使用SoX 进行重采样,但还有其他选项samplerate。另外,他们的forum也有很多好的建议。

    有一个名为 SpeechRecognition 的 Python 库。他们有一些用于语音到文本的离线模型和在线 API 服务。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多