按顺序获取每一行的列名答案

【问题标题】：Getting column names of each row in order按顺序获取每一行的列名
【发布时间】：2016-11-10 17:39:50
【问题描述】：

我有一个包含三列数值的数据框。我想对每一行进行排序，并按每行的排序顺序打印一个带有列名的字符串。这是我的代码：

> df <- data.frame(x = c(1,2,3), y = c(3,1,2), d = c(4,0, 5))
> df
  x y d
1 1 3 4
2 2 1 0
3 3 2 5
> for(r in 1:nrow(df))
+ print(paste(colnames(sort(df[r,])), collapse = " "))
[1] "x y d"
[1] "d y x"
[1] "y x d"

这确实有效，但是当我有一个大数据框时需要很长时间。有没有更有效的方法来执行排序？我尝试使用 apply，但这只是返回空白字符串：

> apply(df, 1, function(row) paste( colnames( sort( row, decreasing = T )) , collapse = " " ))
[1] "" "" ""

当我在单行上调用 apply 中的函数时，它可以工作：

> paste( colnames( sort( df[1,], decreasing = T )) , sep = " " )
[1] "d" "y" "x"

我主要是在寻找一种比 for 循环更快的方法来对大型数据帧的每一行执行此操作。而且我认为 apply 可能会更快，但无法让它发挥作用。

【问题讨论】：

您的申请失败，因为在apply 中，行是一个数字向量，它没有行名。当你对单行做同样的事情时，单行实际上仍然是一个 data.frame，所以单行版本可以工作。无论如何，您可能希望使用排名/顺序来使用这两个答案。

标签： r performance apply

【解决方案1】：

t(apply(df, 1, function(x) names(x)[order(x)]))

这个问题在我的阅读中再次出现，所以应该编辑以添加更多的方法。以后可能会帮助某人：

library(data.table)
setDT(df)[, paste(colnames(df)[order(.SD)], collapse = " "), by = 1:nrow(df)]

逻辑：groupby 行索引（表示逐行操作） - 然后将rank 应用于每个组（本质上是一行）。 .SD 表示数据的子集（所有列）（您也可以使用 .SDcols = 参数来控制它。然后简单的 paste 将相应的列名放在一起

在dplyr中实现的逻辑与上述相同

library(dplyr)
library(tidyr)
df %>% rowwise() %>% 
       do(rank = paste(colnames(df)[order(unlist(.))], collapse = " ")) %>% 
       unnest()

输出：

#   nrow    V1
#1:    1 x y d
#2:    2 d y x
#3:    3 y x d

【讨论】：

这基本上是可行的，但我不得不将其稍微更改为apply(df, 1, function(x) paste(names(x)[order(x)], collapse = " "))
是的！惊人的！我没有看到您的预期输出。道歉
@Anand 刚刚添加了另一种方法。