【问题标题】:Language Models and Sphinx4语言模型和 Sphinx4
【发布时间】:2014-08-26 05:48:44
【问题描述】:

我是 Sphinx 的新手,我正在尝试编写一个程序来识别音频文件中的单词,该单词仅包含一个口语单词,然后评估置信度。对于像这样的项目,似乎不需要语言模型,因为我只是想识别一个单词,但 Sphinx 似乎需要语言模型来做任何事情。这样的事情可能吗?

【问题讨论】:

    标签: speech-recognition sphinx4


    【解决方案1】:

    不幸的是,Sphinx(和任何其他 ASR 系统)需要一个语言模型来做任何事情。原因是语言模型用于语音维特比解码,需要为许多文本可能性分配分数。

    我假设您正在使用的音频文件可以包含一组可能的单词中的一个(因为我不确定如果音频文件都包含相同的单词会有什么意义......)。在这种情况下,您可以使用语法而不是统计语言模型。一般来说,语法适用于小词汇量的任务。

    Sphinx4 JSGFGrammar Documentation

    要获得置信度值,请参阅 ConfidenceScorer 类的文档,该类可以从识别器中对 Result 进行评分。

    ConfidenceScorer documentation with example

    如果音频文件可以是许多未知单词之一,并且您只想识别您关心的单个单词(即您不知道音频文件中还有哪些单词,或者它足够大设置你不想指定语法中的所有单词),那么你有一个非常困难的任务。老实说,我在语音识别方面工作过,我不完全确定如何做到这一点。你可以尝试指定一堆具有不同语音特征的其他单词(即不同的音节长度,不同类型的声音) ,也许它会很好地工作。如果是这种情况,请告诉我,我可以提出其他一些可能的解决方案,但我猜你的任务是从一小部分单词中识别出一个单词。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多