【发布时间】:2016-08-24 07:57:34
【问题描述】:
我想根据行子集上的聚合函数在每个子集中对 R 中的数据表进行子集化。例如,对于每个键,返回大于仅为子集中的行计算的字段平均值的所有值。示例:
library(data.table)
t=data.table(Group=rep(c(1:5),each=5),Detail=c(1:25))
setkey(t,'Group')
library(foreach)
library(dplyr)
ret=foreach(grp=t[,unique(Group)],.combine=bind_rows,.multicombine=T) %do%
t[Group==grp&Detail>t[Group==grp,mean(Detail)],]
# Group Detail
# 1: 1 4
# 2: 1 5
# 3: 2 9
# 4: 2 10
# 5: 3 14
# 6: 3 15
# 7: 4 19
# 8: 4 20
# 9: 5 24
#10: 5 25
问题是,是否可以使用 data.table 功能对最后两行进行简洁编码?抱歉,如果这是重复,我也在努力解释让 google/stackoverflow 找到它的确切目标。
【问题讨论】:
-
dt[, .SD[Detail > mean(Detail)], by = Group]也许? (我已将t重命名为dt,因为t是R 中的一个函数)。您也可以使用indx <- dt[, .I[Detail > mean(Detail)], by = Group]$V1 ; dt[indx]来获得一些性能 -
谢谢大卫,是的,我并没有真正运行代码,只是为了一个例子而写的(t 作为转置)。我检查了你的答案,看起来不错。
-
使用
data.tablev >=1.9.7,你也可以做一个非等连接,比如res <- dt[, mean(Detail), by = Group] ; dt[res, .(Group, x.Detail), on = .(Group, Detail > V1)]
标签: r key data.table aggregate subset