【问题标题】:data table subset last row by group (retain order)数据表子集最后一行按组(保留顺序)
【发布时间】:2018-01-19 02:17:07
【问题描述】:

有:

> aDT <- data.table(ID = c(3,3,2,2,2,3), colA = c(5,5,4,4,4,5), colC = c(1:6))
> aDT
   ID colA colC
1:  3    5    1
2:  3    5    2
3:  2    4    3
4:  2    4    4
5:  2    4    5
6:  3    5    6

需要:

> aDT <- data.table(ID = c(3,2,3), colA = c(5,4,5), colC = c(2,5,6))
> aDT
   ID colA colC
1:  3    5    2
2:  2    4    5
3:  3    5    6

试过了:

> aDT[, .SD[.N], by = list(ID,colA)]
   ID colA colC
1:  3    5    6
2:  2    4    5

如您所见,结果并不是我真正需要的。如何解决? (顺便说一句,我想保留相同的顺序)

【问题讨论】:

    标签: r data.table subset


    【解决方案1】:

    您实际上并不是按IDcolA 进行分组,而是按连续的块进行分组,为此您可以使用rleid

    aDT[aDT[, .I[.N], rleid(ID, colA)]$V1]
    
    #   ID colA colC
    #1:  3    5    2
    #2:  2    4    5
    #3:  3    5    6
    

    .I[.N]为每个组提取最后一行的全局行号:

    aDT[, .I[.N], rleid(ID, colA)]
    
    #   rleid V1               
    #1:     1  2
    #2:     2  5
    #3:     3  6      there are three groups in total, the row numbers of last rows are 2,5,6
    

    然后使用行号对原始数据表进行子集化。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-06-07
      • 2021-04-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-11-24
      相关资源
      最近更新 更多