【发布时间】:2020-01-13 10:55:35
【问题描述】:
我正在尝试实现以下目标:我有一个数据集,以及一个对该数据集进行子集化的函数,然后对该子集执行一系列操作。子集基于行名称发生。我可以逐步完成(即分别为每个子集运行此函数),但我有一个所需子集的列表,我想遍历这个列表。听起来很复杂 - 请查看下面的示例。 这是我能做的:
#dataframe with rownames
whole_dataset <- data.frame(wt1 = c(1, 2, 3, 6, 6),
wt2 = c(2, 3, 4, 4, 2))
row.names(whole_dataset) = c("HTA1", "HTA2", "HTB2", "CSE1", "CSE2")
# two different non-overlapping subsets
his <- c("HTA1", "HTA2", "HTB2")
cse <- c("CSE1", "CSE2")
#this is the function I have
fav_complex <- function (data, complex) {
small_data<- data[complex,] #subset only the rows that you need
sum.all<-colSums(small_data) #calculate sum of columns
return(sum.all)
}
#I generate two deparate named vectors
his_data <- fav_complex(data = whole_dataset, complex = his)
cse_data <- fav_complex(data = whole_dataset, complex = cse)
#and merge them
merged_data<- rbind(his_data,cse_data)
看起来像这样
> merged_data
wt1 wt2
his_data 6 9
cse_data 12 6
我想以某种方式生成 merge_data 数据帧,而不必多次调用“fav_complex”函数。在现实生活中,我有大约 20 个子集,而且代码很多。这是我的解决方案,不起作用
#I first have a character vector listing all the variable names
subset_list <- c("his", "cse")
#then create a loop that goes over this list
#make an empty dataframe
merged_data2 <- data.frame()
#fill it with a for loop output
for (element in subset_list) {
result <- fav_complex(data = whole_dataset, element)
merged_data2 <-rbind(merged_data2, result)
}
我知道这是错误的。在这个循环中,'element' 只是一个字符串,而不是一个包含东西的变量。但我不知道如何使它成为一个变量。 noquote(element) 不起作用。我尝试阅读有关非标准评估和 eval()、substitute() 的信息,但它对我来说太抽象了——我想我的 R 专业知识还不在那里。
【问题讨论】:
-
有错误。 1) 在函数中它是
data而不是whole_dataset。 2)在循环中使用result <- fav_complex(data = whole_dataset, get(element)) -
我建议修改工作流程:让一个函数既是数据帧的子集 并且 确实执行一系列操作,这似乎使函数比它需要的更复杂.我建议将函数简化为一系列操作,并使用标准工具将数据拆分为片段,应用函数并组合结果。在 base 中,您可以使用
split、lapply、do.call(rbind),或者如果您不介意额外的依赖关系,请使用purrr或类似的。 (或者,更简单地说,dplyr/data.table分组操作,如果操作真的像“对所有列求和”一样简单) -
@joran - 谢谢,这个简单的建议奏效了。但是,for 循环的输出与手动创建的
merged_data不同,因为它缺少colnames和rownames。你对如何介绍他们有什么建议吗?如果您能告诉我为什么您认为使用get不是一个好主意,我也将不胜感激。 @RuiBarradas,谢谢,我已经纠正了错误。此解决方案还生成一个没有行名和列名的数据框。 @Gregor,这是一个非常简化的示例,我发现这种奇怪的方式更方便,但如果有必要我可能会尝试重新编写它!
标签: r function dataframe subset