【发布时间】:2018-11-22 03:56:24
【问题描述】:
微软似乎提供了很多语音识别产品,我想知道它们之间的区别。
-
有Microsoft Speech API,或SAPI。但不知何故Microsoft Cognitive Service Speech API 有相同的名字。
-
现在,Azure 上的 Microsoft Cognitive Service 提供 语音服务 API 和 Bing 语音 API。我假设对于语音到文本,两个 API 是相同的。
-
还有System.Speech.Recognition(或桌面SAPI)、Microsoft.Speech.Recognition(或服务器SAPI)和Windows.Media.Speech.Recognition。 Here 和here 对这三者的区别做了一些解释。但我的猜测是它们是基于 HMM 的旧语音识别模型,也不是神经网络模型,这三个模型都可以在没有互联网连接的情况下离线使用,对吧?
-
对于 Azure 语音服务和必应语音 API,它们是更高级的语音模型,对吧?但我认为没有办法在我的本地机器上离线使用它们,因为它们都需要订阅验证。 (即使 Bing API 似乎有一个 C# desktop library..)
基本上我想要一个 离线 模型,它可以为我的对话数据(每次录音 5-10 分钟)进行语音到文本的转录,它可以识别多位说话者并输出时间戳(或时间编码的输出)。我现在对所有选项都感到有些困惑。如果有人能给我解释一下,我将不胜感激,非常感谢!
【问题讨论】:
-
你能分享你的发现吗?奇怪的是,这种可用于 Android 和 iOS 等手持设备的简单离线转录功能不适用于 Windows PC。有语音识别,但没有语法就缺乏准确性。 docs.microsoft.com/en-us/previous-versions/office/developer/…
-
您好,好久不见。如果您想要最先进的 ASR 模型,那么我相信您将不得不使用这些主要提供商的 API 服务,这当然意味着您的数据不会在本地处理。我不知道有任何公司为 ASR 提供联合学习,但我的发现现在可能已经过时了。如果您关心隐私,那么像 IBM 这样的一些公司会提供专用云。或者部署 sota ASR 开源模型,那里有一些预训练模型。
-
感谢您的更新。我正在研究 DeepSpeech 和 vosk,它们是开源的、离线的,并且可以在客户端工作。 Nvidia Nemo 非常强大,可以在服务器端运行并在客户端使用 API。
标签: speech-recognition speech-to-text microsoft-cognitive microsoft-speech-api microsoft-speech-platform