是否可以指定两个分布之间的相关性？答案

【问题标题】：Is it possible to specify the correlation between two distributions?是否可以指定两个分布之间的相关性？
【发布时间】：2021-02-28 16:30:15
【问题描述】：

就上下文而言，假设进行了两次学术考试——上午和下午。我只得到了汇总统计数据——两门考试分数的平均值、中位数、偏斜度和峰度，所以我无法准确说出有多少学生通过了，但我可以通过拟合时刻和创建自定义来估计它皮尔逊分布。例如，我可以估计有多少学生通过了第一次和第二次考试，并给它一个标准差来量化我的错误。

我想做的是估计通过课程的学生人数，定义为上午和下午考试的平均分数都超过 60%。如果学生在两个测试中的表现是完全独立的，我想这会很容易 - 我只是以两个列表的形式为两个测试生成分数，平均它们，计算超过 60% 的项目数，然后重复，比如 10000次。

如果两个测试都完全依赖，我想我必须对两个列表进行排序，因为在早上考试中得分最高的学生也应该在第二个考试中得分最高。我缺少的是我应该如何衡量随机性/相互依赖的程度（也许它与熵有关？），在考试 1 中得分高的学生在考试 2 中也得分高，如果有R 中的包，我可以使用它来指定两个变量之间的任意程度的熵。

【问题讨论】：

这更像是一个统计问题而不是编程问题。
他要求基于熵估计器的 R 包

标签： r statistics correlation entropy

【解决方案1】：

衡量两个分布之间熵的著名概念是KL divergence：

在数理统计中，Kullback-Leibler 散度（也称为相对熵）是衡量一个概率分布与第二个参考概率分布有何不同的指标。

要使度量对称，您也可以使用Jensen-Shannon divergence。

对于KL散度的实现，可以在R中使用this package。

【讨论】：

【解决方案2】：

KL-divergence 的一个特例是mutual information，它是您正在寻找的相互依赖的更好衡量标准。互信息基本上等于联合概率与边际概率分布乘积之间的 KL 散度，而不是计算参考分布的散度。互信息也等于每个边缘分布的熵之和减去它们的联合熵，这意味着您可以先估计个体熵和联合熵，然后将它们相加来估计互信息。

这里是 R 互信息的一种实现，尽管已经引入了许多其他估计器：

https://github.com/majianthu/copent

【讨论】：