【问题标题】:Speech Recognition using CMU Shinx, JSAPI and Google Speech API使用 CMU Shinx、JSAPI 和 Google Speech API 进行语音识别
【发布时间】:2011-12-29 06:37:37
【问题描述】:

语音识别是我当前项目的众多功能之一,它很可能会在 J2EE 中开发(如果选择合理,也欢迎其他语言)。

googleSO 上的大多数链接都建议上述三个选项,Sphinx 4、JSAPI 直接和 Google Speech API(向 google 进行服务器调用,而不是以文本形式获取结果)。

还有哪些可供我免费使用的选项?如果我使用 Sphinx-4,如何获得通用英语的语言模型?

【问题讨论】:

    标签: speech-recognition speech-to-text cmusphinx sphinx4


    【解决方案1】:

    是的,有。

    1. 可以使用谷歌语音识别器的包装器,这是基本的一行代码。您发送 FLAC 或 SPEEX 格式的语音音频并接收识别和置信度分数。唯一的问题是谷歌可以像谷歌翻译一样关闭 API。
    2. 其他选项是使用 Sphinx(Sphinx4 或 Pocketsphinx)。
    3. 可以使用 HTK (http://htk.eng.cam.ac.uk/) 并使用 HVite (HTK 解码器) 或其他类似 Julius (http://julius.sourceforge.jp/en/) .还有其他选项使用 HTK 来训练声学模型和/或语言和语法。

    Voxforge 拥有 HTK 和 Sphinx 的声学和语言模型 (http://voxforge.org/)。

    【讨论】:

    • 这个答案具有误导性。 HTK 是 C 语言,不适合 J2EE。它也不能在应用程序中免费使用。 Voxforge 既不为 HTK 也不为 Sphinx 提供语言模型。
    • 如果 VoxForge 不支持 Sphinx 而不是他们提供模型的原因,请参阅此链接.. sourceforge.net/projects/cmusphinx/files/… 我应该使用哪个来为 Sphinx4 构建听写应用程序.....
    【解决方案2】:

    如果我使用 Sphinx-4,如何获得通用英语的语言模型?

    您可以从 CMUSphinx 网站和其他地方下载它们。您也可以自己构建它们。可能的位置之一是

    http://www.keithv.com/software/csr/

    【讨论】:

    • 我应该从上面的链接下载哪个版本....你能解释一下 readme.txt 的步骤 3,4 和 5.... 吗?如何使用这些模型构建听写应用程序?
    猜你喜欢
    • 1970-01-01
    • 2016-10-31
    • 1970-01-01
    • 2019-09-11
    • 1970-01-01
    • 2019-04-12
    • 1970-01-01
    • 1970-01-01
    • 2015-04-05
    相关资源
    最近更新 更多