复制重复观察的数量并生成一个新 ID，该 ID 根据计数值唯一标识观察答案

【问题标题】：Replicates number of repeated observations and generates a new ID that uniquely identifies observations based on a count value复制重复观察的数量并生成一个新 ID，该 ID 根据计数值唯一标识观察
【发布时间】：2020-09-21 22:56:56
【问题描述】：

我正在尝试复制观测值集群 (ID) 并生成一个新变量来标识唯一的集群（new_ID）。例如，考虑数据框 df1

df1 <- data.frame(ID=c("1", "1", "1", "2", "2", "3"), sex=c("M", "M", "M", "F", "F", "M"),count=c(4,4,4,3,3,2))
df1
#>   ID sex count
#> 1  1   M     4
#> 2  1   M     4
#> 3  1   M     4
#> 4  2   F     3
#> 5  2   F     3
#> 6  3   M     2

df2 <- data.frame(
 ID=c("1","1","1","1","1","1","1","1","1","1","1","1","2","2","2","2","2","2","3","3"),
 new_ID = c("1","1","1","2","2","2","3","3","3","4","4","4","5","5","6","6","7","7", "8","9"),
 sex=c("M","M","M","M","M","M","M","M","M","M","M","M", "F", "F", "F", "F","F", "F","M","M"),
 count=c(4,4,4,4,4,4,4,4,4,4,4,4,3,3,3,3,3,3,2,2))
df2
#>    ID new_ID sex count
#> 1   1      1   M     4
#> 2   1      1   M     4
#> 3   1      1   M     4
#> 4   1      2   M     4
#> 5   1      2   M     4
#> 6   1      2   M     4
#> 7   1      3   M     4
#> 8   1      3   M     4
#> 9   1      3   M     4
#> 10  1      4   M     4
#> 11  1      4   M     4
#> 12  1      4   M     4
#> 13  2      5   F     3
#> 14  2      5   F     3
#> 15  2      6   F     3
#> 16  2      6   F     3
#> 17  2      7   F     3
#> 18  2      7   F     3
#> 19  3      8   M     2
#> 20  3      9   M     2

感谢您提前提供帮助。

【问题讨论】：

集群是如何定义的？
它们由 ID 定义
如何获得前 3 个 1，然后是 3 个 2，等等？
前3个1是因为1在df1中重复的次数是3。所以df2中的1、2的3和4都重复了3次，因为它们都关联到ID = 1在 df1
可能是我，但我仍然不明白您如何根据 df1 的值计算 df2$new_id...

标签： r dplyr count tidyr unnest

【解决方案1】：

如果我理解正确的话，

library(dplyr)

df1 %>%
  tidyr::uncount(count, .remove  = FALSE) %>%
  group_by(ID) %>%
  mutate(new_ID = rep(seq_len(first(count)), each = n()/first(count))) %>%
  ungroup() %>%
  mutate(new_ID = data.table::rleid(new_ID))


# A tibble: 20 x 4
#   ID    sex   count new_ID
#   <chr> <chr> <dbl>  <int>
# 1 1     M         4      1
# 2 1     M         4      1
# 3 1     M         4      1
# 4 1     M         4      2
# 5 1     M         4      2
# 6 1     M         4      2
# 7 1     M         4      3
# 8 1     M         4      3
# 9 1     M         4      3
#10 1     M         4      4
#11 1     M         4      4
#12 1     M         4      4
#13 2     F         3      5
#14 2     F         3      5
#15 2     F         3      6
#16 2     F         3      6
#17 2     F         3      7
#18 2     F         3      7
#19 3     M         2      8
#20 3     M         2      9

【讨论】：