【问题标题】:Bias while converting CMU Sphinx's confidence score to probability将 CMU Sphinx 的置信度分数转换为概率时的偏差
【发布时间】:2012-06-03 14:05:31
【问题描述】:

我正在尝试转换 CMU Sphinx 识别器的输出 (即列表通过调整test_ps_nbest.c获得) 为以下形式: list

我现在使用的一个简单的方法如下:

  1. 将每个置信度分数除以语言权重(例如:11)
  2. 标准化日志域中的置信度得分列表
  3. 输出概率 = exp(归一化置信度得分)

问题是上述方法的输出概率是有偏差的。您有什么建议可以用来获得概率偏差吗?

我必须实施以纠正偏差的示例方法:

vectorgetBias(vector词组,vectorlogConfidenceScores)

上述讨论的输入示例:

【问题讨论】:

    标签: machine-learning speech-recognition probability cmusphinx sphinx4


    【解决方案1】:
    A trivial method which I am using now is as follows:
    Divide each confidence score by language weight (eg: 11)
    

    首先,它不是一个置信度分数,而是一个分数。你为什么要分?列表中的分数也是声学分数,语言权重在这里没有任何意义

    Normalize the list of confidence score in log domain
    

    这也是一件毫无意义的事情,因为你没有考虑到巨大的概率质量。

    Output probability = exp(normalized confidence score)
    

    动作序列没有任何数学意义,没有得到好结果并不奇怪。

    如果您想要每个话语的置信度分数,您可能需要先回顾一下理论:

    http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.93.6890&rep=rep1&type=pdf

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-12-07
      • 2015-10-10
      • 2022-10-09
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-11-21
      • 2015-03-31
      相关资源
      最近更新 更多