【发布时间】:2018-01-19 21:28:47
【问题描述】:
我正在使用 CRIS 进行 POC,我们正在构建一个语音机器人,并希望针对动态条件和实时场景训练我们的机器人。
正如 CRIS 中提到的,我们可以通过构建自定义声学模型来克服背景噪音障碍,我也想达到同样的效果。
我构建了 2 个基于约 4.5 小时长度的自定义语音模型。 第一个模型基于没有背景噪音的干净音频文件。 第二个模型基于相同的音频文件,并在其上叠加了噪声。
上下文中的语言是简单的英语,没有特定的词汇。
两个模型的数据集相同,唯一的区别是在第二个模型的数据集中,所有文件都叠加了静态背景噪声。
我根据叠加了噪音的音频文件进行了准确性测试,但结果很奇怪。 第二个模型给了我 93% 的 WER,第一个模型的 WER 为 100%,这对我来说真的很奇怪,因为第一个模型是针对背景噪声而不是第一个模型进行训练的,理论上第二个模型应该比第一个模型提供更少的 WER .
由于我在 CRIS 中看不到幕后发生的事情,我想知道 CRIS 是否在背景噪音下给出了有效的结果,或者它真的有效,如果是,那么我做错了什么,因为我尝试了多次相同的结果。
【问题讨论】:
-
正是使用开源 ASR 的原因。至少你可能会弄清楚背景发生了什么。您可以从github.com/achernetsov/asr-server 或github.com/achernetsov/kaldi-docker-example 开始
标签: speech-recognition microsoft-cognitive