【发布时间】:2021-02-28 16:30:15
【问题描述】:
就上下文而言,假设进行了两次学术考试——上午和下午。我只得到了汇总统计数据——两门考试分数的平均值、中位数、偏斜度和峰度,所以我无法准确说出有多少学生通过了,但我可以通过拟合时刻和创建自定义来估计它皮尔逊分布。例如,我可以估计有多少学生通过了第一次和第二次考试,并给它一个标准差来量化我的错误。
我想做的是估计通过课程的学生人数,定义为上午和下午考试的平均分数都超过 60%。如果学生在两个测试中的表现是完全独立的,我想这会很容易 - 我只是以两个列表的形式为两个测试生成分数,平均它们,计算超过 60% 的项目数,然后重复,比如 10000次。
如果两个测试都完全依赖,我想我必须对两个列表进行排序,因为在早上考试中得分最高的学生也应该在第二个考试中得分最高。我缺少的是我应该如何衡量随机性/相互依赖的程度(也许它与熵有关?),在考试 1 中得分高的学生在考试 2 中也得分高,如果有R 中的包,我可以使用它来指定两个变量之间的任意程度的熵。
【问题讨论】:
-
这更像是一个统计问题而不是编程问题。
-
他要求基于熵估计器的 R 包
标签: r statistics correlation entropy