语音识别（网络）服务？答案

【问题标题】：Speech recognition (web) services?语音识别（网络）服务？
【发布时间】：2010-04-15 17:08:35
【问题描述】：

我有一个音频缓冲区，我想对其执行语音识别/转录。我本地的 CPU 和 RAM 有限，所以我想在服务器上执行识别。

是否有任何（网络）服务允许我这样做？

到目前为止，我的搜索毫无结果...

【问题讨论】：

【解决方案1】：

Google 刚刚通过 HTML5 引入了对其语音引擎的基于浏览器的访问。

为了让这个页面正常工作，我在 Ubuntu 中启动了 Chromium 浏览器，如下所示：

$ chromium-browser --enable-speech-input

我相信这个想法是能够构建使用 Google 语音识别器的应用程序，但我还没有机会深入研究它。

另一个有趣的项目是麻省理工学院的 WAMI： http://wami.csail.mit.edu

【讨论】：

而且...由于 Chromium 是 OSS，我只是花了一些时间才发现，是的，确实，它有一个 RESTful 服务端点与之通信。构建一个单独的库来调用识别应该不会太难......
我没有研究它，虽然在 Python/Ruby/etc 中实现一个 API 应该是相当简单的，它可以做 Chromium 所做的......假设你可以找到一个 Speex 编解码器 API 为你的选择的语言。

【解决方案2】：

Lumenvox 提供这样的服务，但对您的需求来说似乎很昂贵。

【讨论】：

这是一个很好的发现，尽管他们的程序员文档不存在。貌似是“先买后懂”。我还发现了 Spinvox Create，文档可用——但它是一堆糟糕的 Web API，需要自定义标头、摘要身份验证、包含 XML 和 64 编码音频的多部分帖子，格式并不令人发指但不容易从我的设备转换为...