语言模型和 Sphinx4答案

【问题标题】：Language Models and Sphinx4语言模型和 Sphinx4
【发布时间】：2014-08-26 05:48:44
【问题描述】：

我是 Sphinx 的新手，我正在尝试编写一个程序来识别音频文件中的单词，该单词仅包含一个口语单词，然后评估置信度。对于像这样的项目，似乎不需要语言模型，因为我只是想识别一个单词，但 Sphinx 似乎需要语言模型来做任何事情。这样的事情可能吗？

【问题讨论】：

标签： speech-recognition sphinx4

【解决方案1】：

不幸的是，Sphinx（和任何其他 ASR 系统）需要一个语言模型来做任何事情。原因是语言模型用于语音维特比解码，需要为许多文本可能性分配分数。

我假设您正在使用的音频文件可以包含一组可能的单词中的一个（因为我不确定如果音频文件都包含相同的单词会有什么意义......）。在这种情况下，您可以使用语法而不是统计语言模型。一般来说，语法适用于小词汇量的任务。

Sphinx4 JSGFGrammar Documentation

要获得置信度值，请参阅 ConfidenceScorer 类的文档，该类可以从识别器中对 Result 进行评分。

ConfidenceScorer documentation with example

如果音频文件可以是许多未知单词之一，并且您只想识别您关心的单个单词（即您不知道音频文件中还有哪些单词，或者它足够大设置你不想指定语法中的所有单词），那么你有一个非常困难的任务。老实说，我在语音识别方面工作过，我不完全确定如何做到这一点。你可以尝试指定一堆具有不同语音特征的其他单词（即不同的音节长度，不同类型的声音），也许它会很好地工作。如果是这种情况，请告诉我，我可以提出其他一些可能的解决方案，但我猜你的任务是从一小部分单词中识别出一个单词。

【讨论】：