在分组数据框中输入缺失值答案

【问题标题】：Imputing missing values in a grouped dataframe在分组数据框中输入缺失值
【发布时间】：2020-06-17 15:40:27
【问题描述】：

我在分组数据框中输入缺失值。在DF 内部，Var1 和 Var2 的缺失值是随机的。

数据框按变量Factory:MachineNum 分组。在这些分组中按Odometer 的顺序进行插补。

代码在大约 5-10% 的时间里完美运行。其他 90-95% 的时间是它所说的；

"Error: Column Impute must be length 50 (the group size) or one, not 49".

我认为这可能与缺失值的随机性有关。也许当至少 1 行共享 2 个缺失值时。

如何使这段代码更健壮？

通过多次运行整个代码，您将看到它在大约 5 - 10% 的尝试中有效，并且最终会生成 Results 数据帧。

library(dplyr)
library(tidyr)

# Create dataframe with some missing values in Var1 and Var2
DF <- data.frame(Factory = c(replicate(150,"Factory_A"), replicate(150,"Factory_B")),
                 MachineNum = c(replicate(100,"Machine01"), replicate(100,"Machine02"), replicate(100,"Machine03")),
                 Odometer = c(replicate(1,sample(1:1000,100,rep=FALSE)), replicate(1,sample(5000:7000,100,rep=FALSE)), replicate(1,sample(10000:11500,100,rep=FALSE))),
                 Var1 =c(replicate(1, sample(c(2:10, NA), 100, rep = TRUE)), replicate(1, sample(c(15:20, NA), 100, rep = TRUE)), replicate(1, sample(c(18:24, NA), 100, rep = TRUE))),
                 Var2 = c(replicate(1, sample(c(110:130, NA), 100, rep = TRUE)), replicate(1, sample(c(160:170, NA), 100, rep = TRUE)), replicate(1, sample(c(220:230, NA), 100, rep = TRUE)))
)




# Variables with missing values that need imputing
cols <- grep('Var', names(DF), value = TRUE)

# Group-wise impution of missing values
library(stinepack)
Models <- DF %>%
  pivot_longer(cols = starts_with('Var')) %>%
  arrange(Factory, MachineNum, name, Odometer) %>%
  group_by(Factory, MachineNum, name) %>%
  mutate(Impute = na.stinterp(value, along = time(Odometer), na.rm = TRUE))



# Convert results from long to wide to visually inspect
Results <- Models %>% 
  group_by(Factory, MachineNum, name) %>% 
  mutate(row = row_number()) %>% 
  tidyr::pivot_wider(names_from = name, values_from = c(value, Impute))

【问题讨论】：

在 na.stinterp() 之前取消分组数据
难道它不会在实际上并没有相互成功的观察中进行插补吗？在这些极端情况下犯错误。

标签： r dplyr grouping multiple-columns imputation

【解决方案1】：

当您在组中具有前导和尾随 NA 并且由于您有 na.rm = TRUE 它会删除它们，从而使组不平衡，就会发生错误。

如果您将na.rm 保留为FALSE，它会将NA 保留为NA 并运行而不会出错。

library(dplyr)
library(stinepack)

DF %>%
  pivot_longer(cols = starts_with('Var')) %>%
  arrange(Factory, MachineNum, name, Odometer) %>%
  group_by(Factory, MachineNum, name) %>%
  mutate(Impute = na.stinterp(value, along = time(Odometer), na.rm = FALSE))

【讨论】：

谢谢，我确实尝试完全删除 na.rm 条件，但没有想到默认值可能为 TRUE。你是个传奇。