【问题标题】:Cumsum table with missing value具有缺失值的 Cumsum 表
【发布时间】:2017-10-31 05:24:12
【问题描述】:
dt <- data.table(Name =c("A","A","A","A","B","B","B","B","B"), 
             Number = c(1,3,3,4, 4, 1,1,5,8))

我以这种方式创建了 cumsum 表。

library(matrixStats)
tbl <- round(prop.table(table(dt), 1) * 100, 3)
tbl[] <- rowCumsums(tbl)
names(dimnames(tbl)) <- NULL
tbl[] <-  paste0(sub("^([^.]+)(\\.[^0]).*", "\\1\\2", tbl), "%")
cumsumtable <-  as.data.frame.matrix(tbl)

在原始 dt 中,缺少 2,6 和 7,因此它没有反映表格。

我想要的cumsum表是这样的。 2,6 和 7 填充了之前的百分比。

【问题讨论】:

    标签: r cumsum


    【解决方案1】:

    我们可以将“数字”转换为 factor 列并指定 levels

    dt[, Number := factor(Number, levels = min(Number):max(Number))]
    

    然后运行 ​​OP 的代码

    cumsumtable
    #   1   2   3    4    5    6    7    8
    #A 25% 25% 75% 100% 100% 100% 100% 100%
    #B 40% 40% 40%  60%  80%  80%  80% 100%
    

    这也可以在列转换为factor后通过data.table方法完成

    dcast(dt[, .N,.(Name, Number)][, perc := 100*N/sum(N), Name], 
         Name ~ Number, value.var = 'perc', fill = 0, drop = FALSE)[,
          (2:9) := lapply(Reduce(`+`, .SD, accumulate = TRUE),
                  function(x) paste0(x, "%")), .SDcols = -1][]
    #  Name   1   2   3    4    5    6    7    8
    #1:    A 25% 25% 75% 100% 100% 100% 100% 100%
    #2:    B 40% 40% 40%  60%  80%  80%  80% 100%
    

    【讨论】:

      猜你喜欢
      • 2015-05-20
      • 2015-12-31
      • 1970-01-01
      • 2017-01-03
      • 1970-01-01
      • 2018-11-25
      • 2017-11-23
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多