【问题标题】:data.table computing several column at oncedata.table 一次计算多列
【发布时间】:2014-12-15 23:09:21
【问题描述】:

提前感谢您阅读本文。我有一个在 data.table 1.9.3 上运行良好的函数。但是今天我更新了我的data.table包,我的功能不起作用。

这是我在 data.table 1.9.3 上的功能和工作示例:

trait.by <- function(data,traits="",cross.by){
  traits = intersect(traits,names(data))
  if(length(traits)<1){  
    #if there is no intersect between names and traits
    return(      data[,       list(N. = .N),    by=cross.by])
  }else{
    return(data[,c(   N. = .N,
                    MEAN = lapply(.SD,function(x){return(round(mean(x,na.rm=T),digits=1))}) , 
                    SD   = lapply(.SD,function(x){return(round(sd  (x,na.rm=T),digits=2))}) ,
                    'NA' = lapply(.SD,function(x){return(sum  (is.na(x)))})),
                 by=cross.by, .SDcols = traits])
  }
}

> trait.by(data.table(iris),traits = c("Sepal.Length",    "Sepal.Width"),cross.by="Species")
#      Species N. MEAN.Sepal.Length MEAN.Sepal.Width SD.Sepal.Length
#1:     setosa 50               5.0              3.4            0.35
#2: versicolor 50               5.9              2.8            0.52
#3:  virginica 50               6.6              3.0            0.64
#   SD.Sepal.Width NA.Sepal.Length NA.Sepal.Width
#1:           0.38               0              0
#2:           0.31               0              0
#3:           0.32               0              0

重点是MEAN.(traits)SD.(traits)NA.(traits) 是针对我在traits 变量中给出的所有列计算的。


当我使用 data.table 1.9.4 运行它时,我收到以下错误:

> trait.by(data.table(iris),traits = c("Sepal.Length",    "Sepal.Width"),cross.by="Species")
#Error in assign("..FUN", eval(fun, SDenv, SDenv), SDenv) : 
#  cannot change value of locked binding for '..FUN'

知道我应该如何解决这个问题吗?!

【问题讨论】:

标签: r data.table


【解决方案1】:

更新:这已在1.9.5 中的commit 1680 中修复。来自NEWS

  1. 修复了j-expression 内部优化中存在多个lapply(.SD, function(..) ..) 的错误,如图here on SO。关闭#985。感谢@jadaliha 的报告和@BrodieG 对 SO 的调试。

现在按预期工作:

data[,
  c(
    MEAN = lapply(.SD,function(x){return(round(mean(x,na.rm=T),digits=1))}),
    SD = lapply(.SD,function(x){return(round(sd  (x,na.rm=T),digits=2))})
  ), by=cross.by, .SDcols = traits]    

这看起来像是一个错误,它是由于在一个data.table 调用中多次使用lapply(.SD, FUN)c( 而出现的。您可以通过将c( 替换为.( 来解决此问题。

traits <- c("Sepal.Length",    "Sepal.Width")
cross.by <- "Species"
data <- data.table(iris)

data[,
  c(
    MEAN = lapply(.SD,function(x){return(round(mean(x,na.rm=T),digits=1))})
  ),
  by=cross.by, .SDcols = traits
]

工作。

data[,
  c(
    SD = lapply(.SD,function(x){return(round(sd  (x,na.rm=T),digits=2))})
  ),
  by=cross.by, .SDcols = traits
]

工作。

data[,
  c(
    MEAN = lapply(.SD,function(x){return(round(mean(x,na.rm=T),digits=1))}),
    SD = lapply(.SD,function(x){return(round(sd  (x,na.rm=T),digits=2))})
  ),
  by=cross.by, .SDcols = traits
]    

没用

data[,
  .(
    MEAN = lapply(.SD,function(x){return(round(mean(x,na.rm=T),digits=1))}),
    SD = lapply(.SD,function(x){return(round(sd  (x,na.rm=T),digits=2))})
  ),
  by=cross.by, .SDcols = traits
]

工作。

【讨论】:

  • .(list 相同。虽然.( 作为代码更紧凑,但我个人更喜欢list,它更易于维护代码。不过个人口味。
  • 问题是我在我的函数中广泛使用了这个符号。在当前的解决方案中,例如“Sepal.Length”的mean 是哪个值并不明显。但是,我们可以添加另一列,然后通过额外的列进行转换,但是还有其他方法吗?
【解决方案2】:

像这样?输出格式略有变化。但结果就在那里。

trait.by <- function(data,traits="",cross.by){
  traits = intersect(traits,names(data))
  if(length(traits)<1){  
    #if there is no intersect between names and traits
    return(data[, list(N. = .N), by=cross.by])
  }else{
    # ** Changes: use list instead of c and don't think we need return here.
    # and add new col_Nam with refernce to comments below
    return(data[, list(N. = .N,
                       MEAN = lapply(.SD,function(x){round(mean(x,na.rm=T),digits=1)}) , 
                       SD   = lapply(.SD,function(x){round(sd  (x,na.rm=T),digits=2)}) ,
                       'NA' = lapply(.SD,function(x){sum  (is.na(x))}),
                       col_Nam = names(.SD)),
                by=cross.by, .SDcols = traits])
  }
}
trait.by(data.table(iris),traits = c("Sepal.Length", "Sepal.Width"),cross.by="Species")

# result
      Species N. MEAN   SD NA      col_Nam
1:     setosa 50    5 0.35  0 Sepal.Length
2:     setosa 50  3.4 0.38  0  Sepal.Width
3: versicolor 50  5.9 0.52  0 Sepal.Length
4: versicolor 50  2.8 0.31  0  Sepal.Width
5:  virginica 50  6.6 0.64  0 Sepal.Length
6:  virginica 50    3 0.32  0  Sepal.Width

【讨论】:

  • 您可以考虑指出您对 OP 代码的具体更改。
  • 我想我错过了,对不起
  • 问题是我在我的函数中广泛使用了这个符号。在当前的解决方案中,例如“Sepal.Length”的mean 是哪个值并不明显。但是,我们可以添加另一列,然后通过额外的列进行转换,但是还有其他方法吗?
猜你喜欢
  • 2020-10-07
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-10-04
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多