按区间查找列中的平均值答案

【问题标题】：Finding Mean Values in a Column by Intervals按区间查找列中的平均值
【发布时间】：2021-11-03 04:32:06
【问题描述】：

我正在跟踪治疗周周围的暴力事件，以查看治疗是否对其周围的事件计数产生影响。该表分为国家周，记录了 1989 年至 2019 年间大多数国家的暴力事件。它与此类似，但总共约。 120 个国家和 70k 行：

    Country  Year  Week  Event_Count  Treatment
    -------  ----  ----  -----------  ---------
    Angola   1995  33    3            NA
    Angola   1995  34    2            NA
    Angola   1995  35    3            NA
    Angola   1995  36    0            NA
    Angola   1995  37    4            1
    Angola   1995  38    1            NA
    Angola   1995  39    0            NA
    Angola   1995  40    2            NA
    Angola   1995  41    3            NA

我想在治疗周（在这种情况下，第 37 周由治疗列中的“1”表示）到 12 周的两个方向上以 4 周为间隔计算平均每周事件计数。换句话说，第 -1 到 -4 周将是 2 个事件，因为这是第 33 周到第 36 周的平均每周事件数。第 0 周（在本例中为第 37 周）将是 4。第 1 到第 4 周（38 到 41 ) 将是 1.5。 -5 到 -8 周（第 29 到 32 周）、5 到 8 周（42 到 45 周）、-9 到 -12 周（25 到 28 周）和 9 到 12 周（46 到 49 周）将是平均每周值他们各自的垃圾箱。我正在使用回归不连续设计，所以我想对刚刚错过接受治疗的国家做同样的事情，在治疗栏中用“0”表示。处理列中的所有其他值都是“NA”。我正在考虑这样的编码：

    aggregate(df[row_interval, column_interval], list(df$Country), mean)

但由于我将在同一个国家/地区查看几个治疗周，并且治疗周定期变化（例如，安哥拉，1995 年第 37 周；阿尔及利亚，1998 年第 12 周等），所以这行不通。理想情况下，我想将“0”和“1”治疗的输出与治疗周放在同一行。例如：

    Country Year Week Event_Count Treatment -12to-9 -8to-5 -4to-1 0 1to4 5to8 9to12
    ------- ---- ---- ----------- --------- ------- ------ ------ - ---- ---- -----
    Algeria 2002  14     4           0         3      0.5    1    4  2    5    2

我试图将相似周的输出放在同一列中，无论接受“0”还是“1”进行治疗。例如，治疗后第 1 至 4 周的所有值都将属于“1to4”列。

提前感谢您的帮助！我对 stack 和 r 还很陌生，所以对于任何混淆，我深表歉意。

【问题讨论】：

你只需要-12~+12吗？

标签： r mean

【解决方案1】：

我写了更长的数据，总共包含 25 周。

Country  Year  Week Event_Count Treatment
   <chr>   <dbl> <dbl>       <dbl>     <dbl>
 1 Angola   1995    25           3        NA
 2 Angola   1995    26           2        NA
 3 Angola   1995    27           4        NA
 4 Angola   1995    28           1        NA
 5 Angola   1995    29           0        NA
 6 Angola   1995    30           4        NA
 7 Angola   1995    31           1        NA
 8 Angola   1995    32           0        NA
 9 Angola   1995    33           3        NA
10 Angola   1995    34           2        NA
# ... with 15 more rows

与您的示例相同，第 37 周有Treatment。将函数gola定义为，

gola <- function(df) {
  idx <- which(!is.na(df$Treatment))
  res <- c()
  for (i in idx){
    trt <- df$Event_Count
    x.3 <- mean(trt[(i-12):(i-9)])
    x.2 <- mean(trt[(i-8):(i-5)])
    x.1 <- mean(trt[(i-4):(i-1)])
    x <- trt[i]
    x1 <- mean(trt[(i+1):(i+4)])
    x2 <- mean(trt[(i+5):(i+8)])
    x3 <- mean(trt[(i+9):(i+12)])
    res <- rbind(res,c(x.3, x.2, x.1, x, x1, x2, x3))
    
  }
  colnames(res) <- c("_12to_9", "_8to_5", "_4to_1", "0", "1to4", "5to8", "9to12")
  res <- cbind(df[idx,], res)
  return(res) 
}

然后，gola(df) 将返回

  Country Year Week Event_Count Treatment _12to_9 _8to_5 _4to_1 0 1to4 5to8 9to12
1  Angola 1995   37           4         1     2.5   1.25      2 4  1.5    2  1.75

【讨论】：

非常感谢！！！！有用！如果可以的话，我会给你100分！谢谢！

【解决方案2】：

这就是我得到的。我没有你的实际数据。因此，我创建了自己的示例数据，这与您的类似。根据您的实际数据，我的想法可能/可能不适合您。但我认为这个想法有一些本质来解决你的情况。我认为，关键是如何生成子组索引。您有一个基行，其中治疗中的值为 0、1 或 NA。（在我的示例中，我只使用了 1。您需要考虑在 Treatment 中没有任何 1 或 0 的情况。）基本上，我想确定可以用作创建子组的标志的行号。当您想识别此类行时，您需要考虑行号何时小于/大于基本行。您在第一个 case_when() 中看到了这一点。第二个 case_when() 处理生成组号。在此之后，这项工作似乎很简单。我希望这对您有所帮助。

group_by(mydf, Country) %>%
  mutate(group = 1:n(),
         group = case_when(row_number() %in% (which(Treatment == 1) + 
                                       (4 * 1:floor(length(group[which(Treatment == 1):n()]) / 4)) + 1) ~
                         TRUE,
                  row_number() %in% (which(Treatment == 1) - 
                                            (4 * 1:floor(length(group[1:which(Treatment == 1)]) / 4)) - 1) ~
                         TRUE,
                  row_number() == which(Treatment == 1) ~ TRUE,
                         TRUE ~ FALSE),
         group = case_when(row_number() < which(Treatment == 1) ~
                             cumsum(c(T, diff(group) == -1)),
                           row_number() > which(Treatment == 1) ~
                             cumsum(c(F, diff(group) == 1)) + as.integer(100),
                           TRUE ~ as.integer(100))) %>% 
 group_by(group, .add = TRUE) %>% 
 summarize(year = first(Year),
           week = paste(first(Week), last(Week), sep = "-"),
           average = mean(Event_Count, rm.na = TRUE)) %>% 
 select(-group)

#  Country    year week  average
#   <chr>     <dbl> <chr>   <dbl>
# 1 Argentina  1995 24-24    4   
# 2 Argentina  1995 25-28    5   
# 3 Argentina  1995 29-32    7.25
# 4 Argentina  1995 33-36    7.75
# 5 Argentina  1995 37-37    8   
# 6 Argentina  1995 38-41    3.5 
# 7 Argentina  1995 42-45    7.253
# 8 Argentina  1995 46-49    5.25
# 9 Argentina  1995 50-50    9   
#10 Brazil     1995 24-24    4   
#11 Brazil     1995 25-28    5   
#12 Brazil     1995 29-32    6   
#13 Brazil     1995 33-36    7.5 
#14 Brazil     1995 37-37    7   
#15 Brazil     1995 38-41    6.5 
#16 Brazil     1995 42-45    4   
#17 Brazil     1995 46-49    6.5 
#18 Brazil     1995 50-50   10

数据

set.seed(111)
mydf <- data.frame(Country = rep(c("Argentina", "Brazil"), each = 27),
                   Year = rep(1995, times = 54),
                   Week = rep(c(24:50), times = 2),
                   Event_Count = sample.int(n = 10, size = 54, replace = TRUE),
                   Treatment = rep(c(rep(NA, times = 13), 1, rep(NA, times = 13)), times = 2))

【讨论】：

这成功了！非常感谢您解决这个问题 - 我真的很感激！
@DylanForrester 我很高兴听到这个消息。当您的案例完成后，您可以通过单击您可以在赞成/反对票附近找到的勾号来关闭它们吗？选择最适合您的。这样，您帖子的未来读者可以确定您选择的任何解决方案都有效。读者将获得好处。