Microsoft 自定义语音服务 (CRIS)答案

【问题标题】：Microsoft Custom Speech Service (CRIS)Microsoft 自定义语音服务 (CRIS)
【发布时间】：2018-01-19 21:28:47
【问题描述】：

我正在使用 CRIS 进行 POC，我们正在构建一个语音机器人，并希望针对动态条件和实时场景训练我们的机器人。

正如 CRIS 中提到的，我们可以通过构建自定义声学模型来克服背景噪音障碍，我也想达到同样的效果。

我构建了 2 个基于约 4.5 小时长度的自定义语音模型。第一个模型基于没有背景噪音的干净音频文件。第二个模型基于相同的音频文件，并在其上叠加了噪声。

上下文中的语言是简单的英语，没有特定的词汇。

两个模型的数据集相同，唯一的区别是在第二个模型的数据集中，所有文件都叠加了静态背景噪声。

我根据叠加了噪音的音频文件进行了准确性测试，但结果很奇怪。第二个模型给了我 93% 的 WER，第一个模型的 WER 为 100%，这对我来说真的很奇怪，因为第一个模型是针对背景噪声而不是第一个模型进行训练的，理论上第二个模型应该比第一个模型提供更少的 WER .

由于我在 CRIS 中看不到幕后发生的事情，我想知道 CRIS 是否在背景噪音下给出了有效的结果，或者它真的有效，如果是，那么我做错了什么，因为我尝试了多次相同的结果。

【问题讨论】：

正是使用开源 ASR 的原因。至少你可能会弄清楚背景发生了什么。您可以从github.com/achernetsov/asr-server 或github.com/achernetsov/kaldi-docker-example 开始

标签： speech-recognition microsoft-cognitive

【解决方案1】：

首先，93% 的 WER 非常高，只有在您听音频时几乎听不懂音频时才会发生。

据我了解，您创建了 3 个数据集：

training_1：4.5 小时清晰的音频
training_2：4.5 小时的嘈杂音频
test_1：几分钟的嘈杂音频

我假设 training_2 和 test_1 中的噪声相似。注意：您不能在 training_2 中添加人工噪声并在 test_1 中使用真实噪声。训练数据必须能代表测试数据。

如果我猜对了，当您使用经过 training_1 训练的模型在 test_1 中解码音频时，您将获得 93% 的 WER。当您使用经过 training_2 训练的模型对 test_1 进行解码时，您将获得 100% 的 WER。如果您使用我们的基线模型（Microsoft 对话模型）解码 test_1，您会得到什么 WER？您可以简单地创建一个新的准确性测试来获取此值。

如果您想分享更多详细信息和数据，请与我们联系（链接在https://cris.ai/ 底部）。我们可以仔细看看出了什么问题。

感谢您对自定义语音服务的关注。

【讨论】：

我用微软对话模型测试了测试文件，我得到了 97.2% 的 WER。