【发布时间】:2020-05-11 22:01:33
【问题描述】:
我想使用离线语音到文本识别,主要是德语。
特别想用Mozilla DeepSpeech(百度DeepSpeech架构的TensorFlow实现),但我担心音频输入的音频质量不够好,产生低错误率(WER - word error rates)。
(英文)示例:
说话者说“知道”,但引擎可能已经理解“flow”或“show”或“go” 或 “知道”。
我想从引擎中获取[flow, show, go, know],以便之后我可以手动决定哪个建议最适合。我怎样才能得到这个?
其他语音转文本引擎是否提供这种可能性?
【问题讨论】:
标签: speech-recognition speech-to-text mozilla-deepspeech