使用 CMU Shinx、JSAPI 和 Google Speech API 进行语音识别答案

【问题标题】：Speech Recognition using CMU Shinx, JSAPI and Google Speech API使用 CMU Shinx、JSAPI 和 Google Speech API 进行语音识别
【发布时间】：2011-12-29 06:37:37
【问题描述】：

语音识别是我当前项目的众多功能之一，它很可能会在 J2EE 中开发（如果选择合理，也欢迎其他语言）。

google 和SO 上的大多数链接都建议上述三个选项，Sphinx 4、JSAPI 直接和 Google Speech API（向 google 进行服务器调用，而不是以文本形式获取结果）。

还有哪些可供我免费使用的选项？如果我使用 Sphinx-4，如何获得通用英语的语言模型？

【问题讨论】：

标签： speech-recognition speech-to-text cmusphinx sphinx4

【解决方案1】：

是的，有。

可以使用谷歌语音识别器的包装器，这是基本的一行代码。您发送 FLAC 或 SPEEX 格式的语音音频并接收识别和置信度分数。唯一的问题是谷歌可以像谷歌翻译一样关闭 API。
其他选项是使用 Sphinx（Sphinx4 或 Pocketsphinx）。
可以使用 HTK (http://htk.eng.cam.ac.uk/) 并使用 HVite (HTK 解码器) 或其他类似 Julius (http://julius.sourceforge.jp/en/) .还有其他选项使用 HTK 来训练声学模型和/或语言和语法。

Voxforge 拥有 HTK 和 Sphinx 的声学和语言模型 (http://voxforge.org/)。

【讨论】：

这个答案具有误导性。 HTK 是 C 语言，不适合 J2EE。它也不能在应用程序中免费使用。 Voxforge 既不为 HTK 也不为 Sphinx 提供语言模型。
如果 VoxForge 不支持 Sphinx 而不是他们提供模型的原因，请参阅此链接.. sourceforge.net/projects/cmusphinx/files/… 我应该使用哪个来为 Sphinx4 构建听写应用程序.....

【解决方案2】：

如果我使用 Sphinx-4，如何获得通用英语的语言模型？

您可以从 CMUSphinx 网站和其他地方下载它们。您也可以自己构建它们。可能的位置之一是

http://www.keithv.com/software/csr/

【讨论】：

我应该从上面的链接下载哪个版本....你能解释一下 readme.txt 的步骤 3,4 和 5.... 吗？如何使用这些模型构建听写应用程序？