【问题标题】:Is it possible to specify the correlation between two distributions?是否可以指定两个分布之间的相关性?
【发布时间】:2021-02-28 16:30:15
【问题描述】:

就上下文而言,假设进行了两次学术考试——上午和下午。我只得到了汇总统计数据——两门考试分数的平均值、中位数、偏斜度和峰度,所以我无法准确说出有多少学生通过了,但我可以通过拟合时刻和创建自定义来估计它皮尔逊分布。例如,我可以估计有多少学生通过了第一次和第二次考试,并给它一个标准差来量化我的错误。

我想做的是估计通过课程的学生人数,定义为上午和下午考试的平均分数都超过 60%。如果学生在两个测试中的表现是完全独立的,我想这会很容易 - 我只是以两个列表的形式为两个测试生成分数,平均它们,计算超过 60% 的项目数,然后重复,比如 10000次。

如果两个测试都完全依赖,我想我必须对两个列表进行排序,因为在早上考试中得分最高的学生也应该在第二个考试中得分最高。我缺少的是我应该如何衡量随机性/相互依赖的程度(也许它与熵有关?),在考试 1 中得分高的学生在考试 2 中也得分高,如果有R 中的包,我可以使用它来指定两个变量之间的任意程度的熵。

【问题讨论】:

  • 这更像是一个统计问题而不是编程问题。
  • 他要求基于熵估计器的 R 包

标签: r statistics correlation entropy


【解决方案1】:

衡量两个分布之间熵的著名概念是KL divergence

在数理统计中,Kullback-Leibler 散度(也称为相对熵)是衡量一个概率分布与第二个参考概率分布有何不同的指标。

要使度量对称,您也可以使用Jensen-Shannon divergence

对于KL散度的实现,可以在R中使用this package

【讨论】:

    【解决方案2】:

    KL-divergence 的一个特例是mutual information,它是您正在寻找的相互依赖的更好衡量标准。互信息基本上等于联合概率与边际概率分布乘积之间的 KL 散度,而不是计算参考分布的散度。互信息也等于每个边缘分布的熵之和减去它们的联合熵,这意味着您可以先估计个体熵和联合熵,然后将它们相加来估计互信息。

    这里是 R 互信息的一种实现,尽管已经引入了许多其他估计器:

    【讨论】:

      猜你喜欢
      • 2014-05-09
      • 2022-01-22
      • 2016-11-30
      • 2015-02-12
      • 1970-01-01
      • 2012-12-29
      • 2018-05-09
      • 1970-01-01
      • 2022-08-19
      相关资源
      最近更新 更多