【问题标题】:R RecordLinkage package, Understanding alpha and beta errorsR RecordLinkage 包,了解 alpha 和 beta 错误
【发布时间】:2016-07-13 19:34:17
【问题描述】:

我最近一直在学习使用 R RecordLinkage 包。在链接 2 个数据集的一个非常小的示例中,一个有 8 行,另一个有 11 行,我得到了结果:

Linkage Data Set

8 records in data set 1 
11 records in data set 2 
8 record pairs 

4 matches
4 non-matches
0 pairs with unknown status


Weight distribution:

[0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,0.9]   (0.9,1] 
        2         0         2         0         1         3 

3 links detected 
0 possible links detected 
5 non-links detected 

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000


Classification table:

           classification
true status N P L
      FALSE 4 0 0
      TRUE  1 0 3

我无法理解的是 alpha 误差、beta 误差和分类表的准确性之间的关系。下面这些数字究竟来自哪里,是如何计算的:

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000

非常感谢任何帮助

【问题讨论】:

    标签: r duplicates linkage data-linking


    【解决方案1】:

    Alpha 和 Beta 误差是统计量度,通常分别称为 I 型和 II 型误差。在统计术语中,alpha 误差是在假设为真的情况下拒绝原假设的概率; beta 错误是在假设不正确的情况下断言原假设的概率(比较,例如http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996198/)。

    在记录链接的情况下,空假设是记录对是匹配的,即两条记录表示相同的实体。因此,alpha 误差是将一对标记为不匹配的概率,因为它确实是匹配的(假阴性)。此错误计算为:(归类为“非链接”的匹配数)/(匹配数)。 [1]在上例中,有 4 个匹配项,其中 1 个无法识别,因此 alpha 误差为 1 / 4 = 0.25。

    同样,beta 误差是在一对确实不匹配(误报)的情况下将其分类为匹配的概率。它的计算公式为(归类为“链接”的非匹配数)/(非匹配数)。在上面的例子中,没有误报分类,所以 beta 误差为 0。我们假设一个不同的分类表:

               classification
    true status N P L
          FALSE 2 0 2
          TRUE  1 0 3
    

    在这种情况下,有 4 个不匹配,其中 2 个被错误地归类为链接,因此 beta 误差为 2 / 4 = 0.5。

    最后,准确率只是所有对中正确分类的比例(参见https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers#Single_metrics)。在问题的分类表中,有 7 个正确的分类(4 个不匹配,3 个匹配),因此准确率为 7 / 8 = 0,875。

    [1] 当我的意思是分类算法的结果与真实状态形成对比时,我使用 '(non-)link' 而不是 '(non-)match'。

    【讨论】:

      猜你喜欢
      • 2016-10-21
      • 2019-10-11
      • 1970-01-01
      • 1970-01-01
      • 2012-10-11
      • 1970-01-01
      • 1970-01-01
      • 2015-04-09
      • 1970-01-01
      相关资源
      最近更新 更多