【问题标题】:Speech recognition (web) services?语音识别(网络)服务?
【发布时间】:2010-04-15 17:08:35
【问题描述】:

我有一个音频缓冲区,我想对其执行语音识别/转录。我本地的 CPU 和 RAM 有限,所以我想在服务器上执行识别。

是否有任何(网络)服务允许我这样做?

到目前为止,我的搜索毫无结果...

【问题讨论】:

  • 我也找到了 Spinvox Create...

标签: web-services api service speech-recognition


【解决方案1】:

Google 刚刚通过 HTML5 引入了对其语音引擎的基于浏览器的访问。

http://slides.html5rocks.com/#speech-input

为了让这个页面正常工作,我在 Ubuntu 中启动了 Chromium 浏览器,如下所示:

$ chromium-browser --enable-speech-input

我相信这个想法是能够构建使用 Google 语音识别器的应用程序,但我还没有机会深入研究它。

另一个有趣的项目是麻省理工学院的 WAMI: http://wami.csail.mit.edu

【讨论】:

  • 而且...由于 Chromium 是 OSS,我只是花了一些时间才发现,是的,确实,它有一个 RESTful 服务端点与之通信。构建一个单独的库来调用识别应该不会太难......
  • 我没有研究它,虽然在 Python/Ruby/etc 中实现一个 API 应该是相当简单的,它可以做 Chromium 所做的......假设你可以找到一个 Speex 编解码器 API 为你的选择的语言。
【解决方案2】:

Lumenvox 提供这样的服务,但对您的需求来说似乎很昂贵。

【讨论】:

  • 这是一个很好的发现,尽管他们的程序员文档不存在。貌似是“先买后懂”。我还发现了 Spinvox Create,文档可用——但它是一堆糟糕的 Web API,需要自定义标头、摘要身份验证、包含 XML 和 64 编码音频的多部分帖子,格式并不令人发指但不容易从我的设备转换为...
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2020-12-18
  • 1970-01-01
  • 2012-12-28
  • 1970-01-01
  • 2014-10-04
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多