根据名称循环遍历数据框答案

【问题标题】：Loop through data frames based upon name根据名称循环遍历数据框
【发布时间】：2013-07-03 06:46:35
【问题描述】：

我还有一个简单的问题，希望有人能提供帮助。我有一系列具有重复名称结构的数据框。我想遍历它们并进行一些分析。这是我想使用一些假数据做的硬编码示例：

#Create some fake data
n1 = c(2, 3, 5, 7) 
s1 = c(1, 1, 2, 0) 
b1 = c(6, 0, 0, 0) 
Tank001.df = data.frame(n1, s1, b1)

n2 = c(1, 2, 4, 6) 
s2 = c(2, 2, 0, 0) 
b2 = c(8, 9, 10, 0) 
Tank002.df = data.frame(n2, s2, b2)

n3 = c(7, 12, 0, 0) 
s3 = c(5, 3, 0, 0) 
b3 = c(8, 9, 10, 4) 
Tank003.df = data.frame(n3, s3, b3)

我想自动化的第一个操作是将 0 值转换为“NA”。这是硬编码的版本，但理想情况下，我会根据我拥有的 Tankxxx.df 数据帧数自动执行此操作：

#Convert zeros to NA
Tank001.df[Tank001.df==0] <- NA
Tank002.df[Tank002.df==0] <- NA
Tank003.df[Tank003.df==0] <- NA

最后我想完成一系列的数据查询，一个简单的例子可能是每个数据帧中小于5的值的数量：

#Return the number of values smaller than 5
Tank001.less.than.5 <- numeric(length(Tank001.df))
for (i in 1:(length(Tank001.df))) {Tank001.less.than.5[i] <- sum(Tank001.df[[i]] < 5,na.rm=TRUE)} 
Tank002.less.than.5 <- numeric(length(Tank002.df))
for (i in 1:(length(Tank002.df))) {Tank002.less.than.5[i] <- sum(Tank002.df[[i]] < 5,na.rm=TRUE)} 
Tank003.less.than.5 <- numeric(length(Tank003.df))
for (i in 1:(length(Tank003.df))) {Tank003.less.than.5[i] <- sum(Tank003.df[[i]] < 5,na.rm=TRUE)}

理想情况下，我还想知道如何将这种简单计算的结果写入新的数据帧。在这种情况下，例如 Less.than.5$TankXXX 等。

任何帮助将不胜感激。

【问题讨论】：

+1 用于具有源数据和所需输出的可重现示例。

标签： r loops

【解决方案1】：

创建您的data.frames 的list 并使用lapply 和sapply 的组合，如下所示：

TankList <- list(Tank001.df, Tank002.df, Tank003.df)
lapply(TankList, function(x) {
  x[x == 0] <- NA
  sapply(x, function(y) sum(y < 5, na.rm = TRUE))
})
# [[1]]
# n1 s1 b1 
#  2  3  0 
# 
# [[2]]
# n2 s2 b2 
#  3  2  0 
# 
# [[3]]
# n3 s3 b3 
#  0  1  1

【讨论】：

感谢您的快速解决方案。以前没有使用过列表，对于我的简单示例，获取 n1、s1 和 b1 均值的语法是什么？例如。上述示例的期望结果是 1.67, 1.67, 0.67
@user1912925，抱歉，我不明白您是如何得出这些结果的。你能解释一下，我会看看我能做些什么来帮忙？
@AnandaMahto 我认为他想要所有n* 等的平均值。（但他的值不正确）要么在每个列表的第 k 个元素中使用 sapply，要么将结果转换为矩阵并计算 colMeans ？

【解决方案2】：

这也适用于单个 lapply 和 colSums：

l <- list(Tank001.df, Tank002.df, Tank003.df) # create a list

lapply(l, function(x) colSums("is.na<-"(x, !x) < 5, na.rm = TRUE))

# [[1]]
# n1 s1 b1 
#  2  3  0 
# 
# [[2]]
# n2 s2 b2 
#  3  2  0 
# 
# [[3]]
# n3 s3 b3 
#  0  1  1

【讨论】：

+1，但肯定不是最令人难忘或最常见的语法！
+1！我可以建议像l <- mget(ls(pattern='Tank.*df$') 这样的东西来避免手动创建列表...
@agstudy 好主意！ mget 函数需要一个环境参数：mget(ls(pattern='Tank.*df$'), globalenv())。
@SvenHohenstein 是的，但在这种情况下不需要。它与ls 具有相同的参数（环境）。