Microsoft Speech 产品/平台之间的差异答案

【问题标题】：Difference among Microsoft Speech products/platformsMicrosoft Speech 产品/平台之间的差异
【发布时间】：2018-11-22 03:56:24
【问题描述】：

微软似乎提供了很多语音识别产品，我想知道它们之间的区别。

有Microsoft Speech API，或SAPI。但不知何故Microsoft Cognitive Service Speech API 有相同的名字。
现在，Azure 上的 Microsoft Cognitive Service 提供 语音服务 API 和 Bing 语音 API。我假设对于语音到文本，两个 API 是相同的。
还有System.Speech.Recognition（或桌面SAPI）、Microsoft.Speech.Recognition（或服务器SAPI）和Windows.Media.Speech.Recognition。 Here 和here 对这三者的区别做了一些解释。但我的猜测是它们是基于 HMM 的旧语音识别模型，也不是神经网络模型，这三个模型都可以在没有互联网连接的情况下离线使用，对吧？
对于 Azure 语音服务和必应语音 API，它们是更高级的语音模型，对吧？但我认为没有办法在我的本地机器上离线使用它们，因为它们都需要订阅验证。（即使 Bing API 似乎有一个 C# desktop library..）

基本上我想要一个离线模型，它可以为我的对话数据（每次录音 5-10 分钟）进行语音到文本的转录，它可以识别多位说话者并输出时间戳（或时间编码的输出）。我现在对所有选项都感到有些困惑。如果有人能给我解释一下，我将不胜感激，非常感谢！

【问题讨论】：

你能分享你的发现吗？奇怪的是，这种可用于 Android 和 iOS 等手持设备的简单离线转录功能不适用于 Windows PC。有语音识别，但没有语法就缺乏准确性。 docs.microsoft.com/en-us/previous-versions/office/developer/…
您好，好久不见。如果您想要最先进的 ASR 模型，那么我相信您将不得不使用这些主要提供商的 API 服务，这当然意味着您的数据不会在本地处理。我不知道有任何公司为 ASR 提供联合学习，但我的发现现在可能已经过时了。如果您关心隐私，那么像 IBM 这样的一些公司会提供专用云。或者部署 sota ASR 开源模型，那里有一些预训练模型。
感谢您的更新。我正在研究 DeepSpeech 和 vosk，它们是开源的、离线的，并且可以在客户端工作。 Nvidia Nemo 非常强大，可以在服务器端运行并在客户端使用 API。

标签： speech-recognition speech-to-text microsoft-cognitive microsoft-speech-api microsoft-speech-platform

【解决方案1】：

一个困难的问题 - 也是它如此困难的部分原因：我们（微软）似乎提出了一个关于“语音”和“语音 api”的不连贯的故事。虽然我在微软工作，但以下是我对此的看法。我试图对我的团队中的计划提供一些见解（认知服务语音 - 客户端 SDK），但我无法预测不那么近的未来的所有方面。

Microsoft 早期就认识到语音是一种重要的媒介，因此 Microsoft 在其产品中启用语音的历史悠久且悠久。有非常好的语音解决方案（具有本地识别）可用，您列出了其中的一些。

我们正在努力统一这一点，并为您提供一个地方，让您可以在 Microsoft 中找到最先进的语音解决方案。这是“Microsoft 语音服务”(https://docs.microsoft.com/de-de/azure/cognitive-services/speech-service/) - 目前处于预览阶段。

在服务方面，它将把我们的主要语音技术（如语音转文本、文本转语音、意图、翻译（以及未来的服务））整合到一个保护伞下。语音和语言模型不断改进和更新。我们正在为此服务开发客户端 SDK。随着时间的推移（今年晚些时候），该 SDK 将在所有主要操作系统（Windows、Linux、Android、iOS）上可用，并支持主要编程语言。我们将继续增强/改进对 SDK 的平台和语言支持。

这种在线服务和客户端 SDK 的组合将在今年晚些时候离开预览状态。

我们理解拥有本地识别能力的愿望。在我们的第一个 SDK 版本中，它不会“开箱即用”（它也不是当前预览版的一部分）。 SDK 的一个目标是平台和语言之间的一致性（功能和 API）。这需要大量的工作。离线现在不属于这个，我无法在这里做出任何预测，无论是功能还是时间线......

所以在我看来 - 新的语音服务和 SDK 是前进的方向。目标是在所有平台上统一 API，轻松访问所有 Microsoft 语音服务。它需要订阅密钥，它要求您已“连接”。我们正在努力在今年晚些时候让（服务器和客户端）都退出预览状态。

希望这会有所帮助...

沃尔夫冈

【讨论】：

非常感谢沃尔夫冈！我真的很感谢你的回答！ Microsoft 是否计划在不久的将来向您当前的语音服务 API 添加说话者分类，即“谁在什么时间说话”？
请理解，我不能就未发布的服务、产品等发表声明……我无法预测何时/是否可以通过认知服务获得这些东西，但肯定有团队在工作在这些场景中，看看我们在 5 月的 //build 会议上展示了什么：youtube.com/watch?v=ddb3ZgAp9TA
谢谢@wolfma！赞赏！
感谢您的回答，新工作看起来很有希望，但我仍然希望 SAPI 不会很快退役/弃用。它轻量级快速，对基于字典的识别非常有帮助。