【发布时间】:2022-02-11 23:57:08
【问题描述】:
我正在尝试应用期望最大化算法来估计缺失的计数数据,但 R 中的所有包(例如 missMethods)都假设为多元高斯分布。假设泊松分布,我将如何应用期望最大化算法来估计缺失的计数数据?
假设我们有如下所示的数据:
x <- c(100, 96, 79, 109, 111, NA, 93, 95, 119, 90, 121, 96, NA,
NA, 85, 95, 110, 97, 87, 104, 101, 87, 87, NA, 89, NA,
113, NA, 95, NA, 119, 115, NA, 105, NA, 80, 90, 108, 90,
99, 111, 93, 99, NA, 87, 89, 87, 126, 101, 106)
使用missMethods (missMethods::impute_EM(x, stochastic = FALSE)) 应用 impute_EM 会给出答案,但数据不是连续的而是离散的。
我知道像这样的问题需要一个最少的、可重复的例子,但老实说我不知道从哪里开始。甚至建议阅读以将我指向正确的方向也会有所帮助。
【问题讨论】:
-
您不希望计数数据的插补结果是“离散的”吗?毕竟,在许多情况下,你会将该输出提交给函数,如果你有非整数输入,那么这些函数至少会给你警告,最坏的情况是只会出错。
-
我很抱歉,但我对你的评论有点困惑。基于平均值或其他一些统计数据的插补与期望最大化不同。在将缺失值提交给另一个分析之前,我想使用更严格的方法来估计缺失值。
标签: r expectation-maximization