【问题标题】:Aggregate and count observations of multiple columns per group R [duplicate]聚合并计算每组 R 的多列的观察值 [重复]
【发布时间】:2020-08-04 17:01:45
【问题描述】:

我在 R 中遇到了一个问题,我在下面进行了描述。我需要每个组 ID 所有列的总和和计数(避免 NA)。

我有什么:

  ID S1 S2
1 1  NA 1
2 1  5  2
3 1  1  3
4 2  2  7
5 3  4  NA
6 3  2  11

我需要什么

  ID S1.sum S2.sum S1.count S2.count
1 1  6      6      2        3   
2 2  2      7      1        1
3 3  6      11     2        1

进一步编辑:我有完全相同的数据集,但现在有一个额外的列。 “T”

  ID S1 S2 T
1 1  NA 1  3
2 1  5  2  3
3 1  1  3  3
4 2  2  7  5
5 3  4  NA 2
6 3  2  11 2

是否可以像以前一样获得计数和总和,但现在只有当 S1/2 满足条件时(S1/2

生成的数据框如下所示:

  ID S1.sum S2.sum S1.count S2.count
1 1  1      6      1        3   
2 2  2      0      1        0
3 3  2      0      1        0

【问题讨论】:

    标签: r dplyr


    【解决方案1】:

    您可以在dplyr 中使用summarise()across()

    library(dplyr)
    
    df %>%
      group_by(ID) %>%
      summarise(across(S1:S2, list(sum = ~ sum(.x, na.rm = T),
                                   count = ~ sum(!is.na(.x)))))
    
    # # A tibble: 3 x 5
    #      ID S1_sum S1_count S2_sum S2_count
    #   <int>  <int>    <int>  <int>    <int>
    # 1     1      6        2      6        3
    # 2     2      2        1      7        1
    # 3     3      6        2     11        1
    

    对于第二个问题,只需在函数中使用.x[.x &lt;= T]

    df %>%
      group_by(ID) %>%
      summarise(across(S1:S2, list(sum = ~ sum(.x[.x <= T], na.rm = T),
                                   count = ~ sum(!is.na(.x[.x <= T])))))
    
    # # A tibble: 3 x 5
    #      ID S1_sum S1_count S2_sum S2_count
    #   <int>  <int>    <int>  <int>    <int>
    # 1     1      1        1      6        3
    # 2     2      2        1      0        0
    # 3     3      2        1      0        0
    

    数据

    df <- structure(list(ID = c(1L, 1L, 1L, 2L, 3L, 3L), S1 = c(NA, 5L, 
    1L, 2L, 4L, 2L), S2 = c(1L, 2L, 3L, 7L, NA, 11L), T = c(3L, 3L, 
    3L, 5L, 2L, 2L)), class = "data.frame", row.names = c("1", "2", 
    "3", "4", "5", "6"))
    

    【讨论】:

    • 像魅力一样工作。
    • 有没有办法包含另一个计算平均值的列?比如,总和/计数。
    • @SyedAhmed 当然!只需在列表中添加mean = ~ mean(.x, na.rm = T)
    • @SyedAhmed 完成!请检查。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-11-10
    • 2020-03-16
    • 1970-01-01
    • 2023-03-11
    相关资源
    最近更新 更多