【问题标题】:Calculate Correlations of Pairs of Columns in a Data Frame in R在 R 中计算数据框中的列对的相关性
【发布时间】:2014-02-20 04:51:29
【问题描述】:

我有以下数据框:

set.seed(1)
y <- data.frame(a1 = rnorm(5) , b1 = rnorm(5), c1 = rnorm(5),  a2 = rnorm(5), b2 = rnorm(5), c2 = rnorm(5))

我想获得列对的相关性: cor(a1,a2), cor(b1,b2), cor(c1,c2)

我尝试了以下方法,但 NA 显示为输出:

apply(y,2,function(x) cor(x[1],x[3]))

我想得到相当于

的结果
cor(y[,1],y[,4])
cor(y[,2],y[,5])
cor(y[,3],y[,6])

在我的实际数据框中,我有更多的列对。

有什么想法吗?

感谢您的支持。

【问题讨论】:

  • 如果你不介意额外的输出,你可以做cor(y)?
  • 为什么不直接将 x[n] 替换为 y[n] 呢?
  • 我确实介意额外的输出,因为我的实际数据框中有太多变量。谢谢!

标签: r apply correlation


【解决方案1】:
num.vars <- length(y)
var1 <- head(names(y), num.vars / 2)
var2 <- tail(names(y), num.vars / 2)
mapply(cor, y[var1], y[var2])
#         a1         b1         c1 
#  0.2491625 -0.5313192  0.5594564 

【讨论】:

  • 优雅!如果 num.vars 是奇数怎么办?
  • 鉴于 OP 如何提出问题,情况不应该如此。但我想var1var2 的创建方式可以使用不同的方法(例如正则表达式)。不过,我会不理会mapply
【解决方案2】:

另一种在名称上使用可变正​​则表达式的方法。如果变量名是任意顺序的,这也有效。

nn <- 
unique(sub('([0-9]+)','',names(y )))

sapply(nn,function(x){
    xy = y[,grep(x,names(y))]
    cor(xy[,1],xy[,2])})
         a          b          c 
-0.7615458  0.5683647  0.5594564 

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-10-15
    • 2011-10-09
    • 2021-07-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-06-11
    相关资源
    最近更新 更多