【问题标题】:Track changes in time series data table in R跟踪 R 中时间序列数据表的变化
【发布时间】:2018-11-07 04:18:03
【问题描述】:

我有一个这样的data.table

library(data.table)
df = data.table(
  id = c(rep(1, 3), rep(2, 4), rep(3, 2)),
  time = c(seq(1, 3, 1), seq(1, 4, 1), seq(3, 4)),
  value1 = c(0, 0, 0, 0, 2, 0, 0, 0, 1),
  value2 = c(0, 1, 0, 1, 0, 0, 0, 0, 1)
)

像这样打印

    id   time   value1 value2
1:  1    1      0      0
2:  1    2      0      1
3:  1    3      0      0
4:  2    1      0      1
5:  2    2      2      0
6:  2    3      0      0
7:  2    4      0      0
8:  3    3      0      0
9:  3    4      1      1

现在我想创建两个新列来跟踪每个id 的值列中最后一个非零值的时间。 IE。我想要一个如下的结果数据表

    id   time   value1  last_change1  value2  last_change2
1:  1    1      0       NA            0       NA
2:  1    2      0       NA            1       0
3:  1    3      0       NA            0       1
4:  2    1      0       NA            1       0
5:  2    2      2       0             0       1
6:  2    3      0       1             0       2
7:  2    4      0       2             0       3
8:  3    3      0       NA            0       NA
9:  3    4      1       0             1       0

有没有人有一个很好的解决方案来解决这个问题?

【问题讨论】:

    标签: r performance data.table data-manipulation


    【解决方案1】:

    一种选择是使用zoo::na.locfvalue 列的相应行中填充0 占位符中最后一个non-zero 值的行号(特定于组)。最后,从当前行号中减去最后一个non-zerorow-number(分组方式,例如.I-.I[1]+1)。

    library(data.table)
    library(zoo)
    
    df[, c("last_change1", "last_change2") := 
         lapply(.SD, function(x){as.integer((.I-.I[1]+1) - na.locf(as.integer(ifelse(x == 0, NA_integer_, .I-.I[1]+1)), na.rm = FALSE))}),
       .SDcols = value1:value2, by=id]
    

    已编辑:根据@DavidArenburg 的建议添加了简化版本

    df[, c("last_change1", "last_change2") := 
       lapply(.SD, function(x){.I - na.locf(ifelse(x == 0, NA_integer_, .I), na.rm = FALSE)}),
       .SDcols = value1:value2, by=id]
    
    
    #Modified df
    df
    #    id time value1 value2 last_change1 last_change2
    # 1:  1    1      0      0           NA           NA
    # 2:  1    2      0      1           NA            0
    # 3:  1    3      0      0           NA            1
    # 4:  2    1      0      1           NA            0
    # 5:  2    2      2      0            0            1
    # 6:  2    3      0      0            1            2
    # 7:  2    4      0      0            2            3
    # 8:  3    3      0      0           NA           NA
    # 9:  3    4      1      1            0            0
    

    【讨论】:

    • 做得很好。我认为您可以简化为 function(x) .I - na.locf(ifelse(x == 0, NA_integer_, .I), na.rm = FALSE)
    • @DavidArenburg 太棒了。我忽略了.I[1] 最终被取消的事实。我会更新我的答案。
    【解决方案2】:

    data.table 解决方案:现在可以使用尽可能多的非零值。感谢@DavidArenburg 指出。不得不说,这个例子应该考虑到这种情况。

    fun1 <- function(x) {
        split(x,cumsum(x)) %>% lapply(function(x) {
        if(any(x!=0)){ IND2<-(min(which(x!=0)):length(x));x<-NA;x[IND2]<-0:(length(IND2)-1);return(as.numeric(x))} else {x[]<-NA;return(as.numeric(x))}
        }) %>% unlist %>% as.numeric
    }
    
    
    df[,`:=`(last_change1 = fun1(value1), last_change2 = fun1(value2)),by="id"]
    

    结果:

       id time value1 value2 last_change1 last_change2
    1:  1    1      0      0           NA           NA
    2:  1    2      0      1           NA            0
    3:  1    3      0      0           NA            1
    4:  2    1      0      1           NA            0
    5:  2    2      2      0            0            1
    6:  2    3      0      0            1            2
    7:  2    4      0      0            2            3
    8:  3    3      0      0           NA           NA
    9:  3    4      1      1            0            0
    

    【讨论】:

    • 如果某个组中有多个非零值,这将不起作用
    • 你能举个例子吗?明天我去看看。
    • 为整个数据集设置id = 1,看看你会得到什么
    猜你喜欢
    • 2023-03-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-01-07
    • 1970-01-01
    • 2014-08-10
    • 2021-09-16
    • 2015-01-17
    相关资源
    最近更新 更多