将列名作为函数参数传递 - R答案

【问题标题】：Pass column names as function arguments - R将列名作为函数参数传递 - R
【发布时间】：2016-05-14 15:46:04
【问题描述】：

我试图在 y 变量下找到类别“a”和“b”的平均值和中位数。我正在尝试编写一个函数来进行此计算。这是以下示例数据集：

sample_data <- data.frame(x = 1:10, y = c("a","b"))
library(data.table)
sample_data_dt <- as.data.table(sample_data)

我尝试了以下方法，但找不到任何优雅/简单的方法来在 data.table 和 data.frame 中将列名作为函数参数传递。

data.table sample_data_dt 的一个工作脚本是：

apply_statistics_4 <- function(df, on_col, by_col){
df[, list(mean_value = mean(get(on_col)), median_value = median(get(on_col))), by = get(by_col)]}
apply_statistics_4(sample_data_dt, "x", "y") #works

但是，类似的脚本不适用于 ddply 函数上的 data.frame：

apply_statistics_5 <- function(df, on_col, by_col){
ddply(df,.(get(by_col)), summarize, mean1 = mean(get(on_col)), median1 = median(get(on_col)))}
apply_statistics_5(sample_data, "x", "y") #Does not work
#  Error in get(by_col) : object 'y' not found

我使用 ddply 函数为 data.frame 找到的一个工作脚本是：

apply_statistics <- function(df, on_col, by_col){
df$y1 <- eval(substitute(by_col), df)
df$x1 <- eval(substitute(on_col), df)
ddply(df,.(y1), summarize, mean1 = mean(x1), median1 = median(x1))}
d <- apply_statistics(sample_data, x, y) #Works

如果您知道在 R 中为 data.table 和 data.frame 使用列名作为函数参数的任何其他方法，请与解释分享。

谢谢。

【问题讨论】：

可以查看here
对于data.table，您也可以使用f1 <- function(df, on_col, by_col){ df[, .(mean_value = mean(.SD[[1L]]), median_value = median(.SD[[1L]])), by = by_col, .SDcols = on_col] } 对于ddply，另一个链接是here
@akrun - 非常感谢您分享这个意见。这真的很有帮助。

标签： r dataframe data.table plyr

【解决方案1】：

这似乎不是ddply 的问题，而是与功能环境有关的问题。我在这里做了一些测试，如果你在全局环境中定义变量，ddply 可以接受并得到结果，但是当你将字符串作为变量传递给函数时会发生一些奇怪的事情。

m <- "x"
n <- "y"
apply_statistics_5 <- function(df, m, n){
    ddply(df, n, summarise, mean1 = mean(get(m)), median1 = median(get(m)))
}
apply_statistics_5(sample_data, "x", "y")
  y mean1 median1
1 a     5       5
2 b     6       6

如果m 和n 不存在于全局环境中，这将不起作用。

更新：这可能与提到的plyr 包的范围问题有关here。

【讨论】：

【解决方案2】：

您可以按如下方式引用列名：

sample_data[["y"]]
sample_data_dt[["y"]]

另一个对这两种类型具有相似作用（尽管不相同）的命令是subset，例如

on_col <- "x"
subset(sample_data, select=get(on_col))
subset(sample_data_dt, select=get(on_col))
by_col <- "y"
subset(sample_data, subset=get(by_col)=="a")
subset(sample_data_dt, subset=get(by_col)=="a")

请注意，data.table 的 subset 版本和基本 R 版本的行号输出不同，但除此之外它们几乎可以互换（尽管 data.table 当然要快得多）。

【讨论】：

感谢您分享您的意见。这真的很有帮助。