【问题标题】:java speech recognition Sphinx 4java语音识别Sphinx 4
【发布时间】:2010-05-06 02:43:59
【问题描述】:

我想使用 sphinx4 或 HTK 工具包为我构建一个语音识别应用程序,旨在通过语音估计一个人的年龄。我在更大程度上了解语音识别所涉及的统计模型。 我对梅尔频率倒谱系数和高斯混合模型感兴趣,因为这两个更适合我的问题域。我是否必须使用神经网络并从 sphinx 分类器派生的向量中输入训练数据?我不太确定从哪里开始使用 sphinx 或 HTK 工具包。 我是 sphinx 和语音识别的新手,我的应用程序只是一个原型。

任何人都可以在这方面提供某种形式的指导。 亲切的问候。

【问题讨论】:

    标签: sphinx4


    【解决方案1】:

    通常,此类事情的第一个开始是从学术界寻找先前的相关工作。在Minematsu et al. 2002 中,他们使用高斯混合模型(GMM)而不是梅尔频率倒谱系数来区分老少皆宜的说话者。

    大概,如果您可以访问年长和年轻演讲者的训练数据,您应该也可以这样做。即使您想尝试其他分类器后端,例如神经网络,最好从 GMM 开始,因为您知道它们应该适用于您的任务,并且它们会给您提供与任何其他分类器进行比较的东西你想尝试使用。

    如果您只是为了好玩或作为研究项目这样做,我建议您使用 HTK,因为我喜欢它的模块化程度。但是,如果这是出于商业目的,您可能应该使用 Sphinx,因为它可以在类似 BSD 的许可证下重新分发。

    【讨论】:

    • 您好,dmcer,感谢您的指点。这是一个研究项目,我正在尝试构建一个原型。因此,我正在研究 HTK,但这需要我学习 C 编程。这就是我看 sphnix4 的原因,因为它是用 java 编写的。作为语音应用程序的新手。我知道概率概念(条件概率和贝叶斯规则以及各种分布),但我不知道如何使用 HTK 或 sphinx 以及它们提供的工具。您能指出我可以解释如何使用这些工具的任何资源吗?我下载了 HTK,但它让我很困惑。
    • @Binaryrespawn - 如果你想使用 Sphinx,你有没有看过它打包的演示代码,cmusphinx.sourceforge.net/sphinx4/#demos
    • In 确实引入了源文件并使用 ant 构建它们。我现在正在尝试运行演示,但是,我认为笔记本电脑上的麦克风无法到达演示,因此当提示发言时,演示无法接收我的演讲。将麦克风 thalkin 安装到 sphinx4 并扩展演示的任何建议。我在带麦克风和摄像头的戴尔 M6400 笔记本电脑上使用 Windows XP。
    • 我不确定为什么 Java 不能在您的系统上使用麦克风。您可以向 stackoverflow 提交另一个关于 Java 麦克风问题的问题。
    • 好的,我已经解决了,谢天谢地....我能够运行演示并与 sphinx 进行了一些交互会话。现在是时候用 sphinx4 实际做一些工作了。非常感谢您迄今为止的帮助。
    【解决方案2】:

    我决定不使用 Sphinx 4,因为它基于隐马尔可夫模型,该模型主要用于序列分析,例如语音识别,甚至是基于输入序列的接口的多模式输入。 Insted 我使用了一个名为 Praat 的软件,它用于语音处理和合成。如果您愿意,还有一个“插件”,称为“Akustyk”,用于分析元音等。可能这个方向对你有价值,我不确定。

    然后您可以使用 mathlab 并使用模式识别工具箱来实现您的神经网络、GMM 或您希望采用的任何方法。

    希望对您有所帮助。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-04-26
      • 2018-10-17
      • 1970-01-01
      • 2020-03-08
      • 1970-01-01
      • 1970-01-01
      • 2010-09-07
      相关资源
      最近更新 更多