将 CMU Sphinx 的置信度分数转换为概率时的偏差

【问题标题】：Bias while converting CMU Sphinx's confidence score to probability将 CMU Sphinx 的置信度分数转换为概率时的偏差
【发布时间】：2012-06-03 14:05:31
【问题描述】：

我正在尝试转换 CMU Sphinx 识别器的输出（即列表通过调整test_ps_nbest.c获得）为以下形式： list

我现在使用的一个简单的方法如下：

问题是上述方法的输出概率是有偏差的。您有什么建议可以用来获得概率偏差吗？

我必须实施以纠正偏差的示例方法：

vectorgetBias(vector词组，vectorlogConfidenceScores)

上述讨论的输入示例：

【问题讨论】：

【解决方案1】：

A trivial method which I am using now is as follows:
Divide each confidence score by language weight (eg: 11)

首先，它不是一个置信度分数，而是一个分数。你为什么要分？列表中的分数也是声学分数，语言权重在这里没有任何意义

Normalize the list of confidence score in log domain

这也是一件毫无意义的事情，因为你没有考虑到巨大的概率质量。

Output probability = exp(normalized confidence score)

动作序列没有任何数学意义，没有得到好结果并不奇怪。

如果您想要每个话语的置信度分数，您可能需要先回顾一下理论：

【讨论】：