【问题标题】:Microsoft Custom Speech Service (CRIS)Microsoft 自定义语音服务 (CRIS)
【发布时间】:2018-01-19 21:28:47
【问题描述】:

我正在使用 CRIS 进行 POC,我们正在构建一个语音机器人,并希望针对动态条件和实时场景训练我们的机器人。

正如 CRIS 中提到的,我们可以通过构建自定义声学模型来克服背景噪音障碍,我也想达到同样的效果。

我构建了 2 个基于约 4.5 小时长度的自定义语音模型。 第一个模型基于没有背景噪音的干净音频文件。 第二个模型基于相同的音频文件,并在其上叠加了噪声。

上下文中的语言是简单的英语,没有特定的词汇。

两个模型的数据集相同,唯一的区别是在第二个模型的数据集中,所有文件都叠加了静态背景噪声。

我根据叠加了噪音的音频文件进行了准确性测试,但结果很奇怪。 第二个模型给了我 93% 的 WER,第一个模型的 WER 为 100%,这对我来说真的很奇怪,因为第一个模型是针对背景噪声而不是第一个模型进行训练的,理论上第二个模型应该比第一个模型提供更少的 WER .

由于我在 CRIS 中看不到幕后发生的事情,我想知道 CRIS 是否在背景噪音下给出了有效的结果,或者它真的有效,如果是,那么我做错了什么,因为我尝试了多次相同的结果。

【问题讨论】:

标签: speech-recognition microsoft-cognitive


【解决方案1】:

首先,93% 的 WER 非常高,只有在您听音频时几乎听不懂音频时才会发生。

据我了解,您创建了 3 个数据集:

  • training_1:4.5 小时清晰的音频
  • training_2:4.5 小时的嘈杂音频
  • test_1:几分钟的嘈杂音频

我假设 training_2 和 test_1 中的噪声相似。注意:您不能在 training_2 中添加人工噪声并在 test_1 中使用真实噪声。训练数据必须能代表测试数据。

如果我猜对了,当您使用经过 training_1 训练的模型在 test_1 中解码音频时,您将获得 93% 的 WER。当您使用经过 training_2 训练的模型对 test_1 进行解码时,您将获得 100% 的 WER。如果您使用我们的基线模型(Microsoft 对话模型)解码 test_1,您会得到什么 WER?您可以简单地创建一个新的准确性测试来获取此值。

如果您想分享更多详细信息和数据,请与我们联系(链接在https://cris.ai/ 底部)。我们可以仔细看看出了什么问题。

感谢您对自定义语音服务的关注。

【讨论】:

  • 我用微软对话模型测试了测试文件,我得到了 97.2% 的 WER。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2021-11-03
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-10-08
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多