如何从混淆矩阵中计算概率？需要分母，字符矩阵答案

【问题标题】：How to calculate probabilities from confusion matrices? need denominator, chars matrices如何从混淆矩阵中计算概率？需要分母，字符矩阵
【发布时间】：2012-05-29 08:19:13
【问题描述】：

This paper 包含在嘈杂的频道中拼写错误的混淆矩阵。它描述了如何根据条件属性来纠正错误。

条件概率计算在第 2 页左栏。在脚注 4，第 2 页，左栏，作者说：“字符矩阵可以很容易地复制，因此从附录中省略。”我无法弄清楚它们如何被复制！

如何复制它们？我需要原始语料库吗？或者，作者的意思是他们可以从论文本身的材料中重新计算？

【问题讨论】：

标签： nlp machine-learning stanford-nlp opennlp confusion-matrix

【解决方案1】：

查看论文，您只需要使用语料库来计算它们，可以是相同的语料库，也可以是与您的应用相关的语料库。

在复制矩阵时，请注意它们隐含地定义了两个不同的chars 矩阵：一个向量和一个 n×n 矩阵。对于每个字符x，向量chars 包含字符x 在语料库中出现的次数的计数。对于每个字符序列xy，矩阵chars 包含该序列在语料库中出现的次数的计数。

chars[x]表示在向量中查找x； chars[x,y] 表示在矩阵中查找序列xy。请注意，chars[x] = chars[x,y] 对于每个 y 值的总和。

请注意，它们的计数均基于 1988 年美联社新闻专线语料库 (available from the LDC)。如果您不能使用他们确切的语料库，我认为使用来自同一类型的另一个文本（即另一个新闻专线语料库）并缩放您的计数以使其适合原始数据是不合理的。也就是说，如果一个文本足够相似，一个给定字符的频率不应该在另一个文本之间变化太大，所以如果你有一个包含 2200 万字新闻专线的语料库，你可以计算那个文本中的字符并且然后将它们加倍以接近其原始计数。

【讨论】：

如果不是同一个语料库，那概率怎么计算呢？分子和分母应该是“兼容的”——不是吗？否则，根据分子的语料库和分母的语料库，除法可能会产生非常不同的概率。
如果您使用类似大小的类似语料库（即新闻专线文本之一），您可能会假设字符和字符序列的出现频率与其原始语料库中的频率大致相同。（我正在四处寻找是否可以在任何地方下载 1988 Newswire 语料库，但您最终可能还要重新计算其他矩阵。）
看起来 1988 年的数据是 LDC 提供的 TIPSTER 语料库的一部分：ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC93T3A
感谢提供数据链接。但是您对“相似语料库”的评论是，问题在于该论文没有在任何地方给出频率；它给出了计数。要从计数中获取频率，您需要基于原始语料库的字符数组（我认为）。如果你有频率，那么你就不需要任何其他信息。我说的对吗？
我的推理基本上是这样的：相似的语料库（例如相同的流派）应该具有相似的字符频率。他们指出 1988 年的 AP Newswire 语料库有大约 4400 万字，因此，如果您使用 2200 万字的新闻专线语料库并将计数加倍，您可能会得到一个合理的近似值。