【发布时间】:2014-03-03 12:31:33
【问题描述】:
我正在使用 R。 我的数据集有大约 40 个不同的变量/向量,每个都有大约 80 个条目。我试图找到显着的相关性,这意味着我想选择一个变量并让 R 计算该变量与其他 39 个变量的所有相关性。
我试图通过使用带有一个解释变量的线性模型来做到这一点,这意味着:Y=a*X+b。 然后 lm() 命令为我提供了 a 的估计量和 a 的估计量的 p 值。然后我会继续使用我对 X 拥有的其他变量之一,然后再试一次,直到找到一个非常小的 p 值。
我确定这是一个常见问题,是否有某种包或功能可以尝试所有这些可能性(蛮力),显示它们,然后甚至可能按 p 值对它们进行排序?
【问题讨论】:
-
欢迎来到 SO。在继续分析之前,请阅读xkcd.com/882
-
你没有一些基于理论的假设吗?您为什么要进行这些测量?
-
线性模型的部分意义在于,您可以一次根据几个其他变量预测响应变量,而不必为每个预测变量运行单独的模型。
标签: r correlation