【发布时间】:2016-03-24 10:14:22
【问题描述】:
我们正在使用 ESS 数据集,但不确定如何处理 SAS Enterprise Guide 中的缺失值问题。我们的因变量是“主观幸福感”,旨在包括大量控制变量——因此,我们有一个数据集包含大量缺失值的情况。
我们不想使用“列表删除”。相反,我们希望根据被访者的回答以不同的方式处理不同的缺失:“不回答”、“不适用”、“拒绝”、“不知道”。例如,我们计划对不适用进行成对删除,而我们可能希望使用例如其他一些回答的平均值 - 取决于问题(假设受访者的回答提供有关 MCAR、MAR、NMAR 的信息)。
我们的主要问题是:
- 目前,我们缺失的变量在数据集中以不同的方式标记(99、77、999、88 等),我们是否应该在继续使用 SAS Enterprise Guide 之前在 Excel 中替换这些值?如果是 - 我们应该如何最好地替换它们,因为它们应该以不同的方式处理?
- 我们如何告诉 SAS Enterprise Guide 以不同的方式处理不同的缺失?
- 如果我们使用虚拟变量来标记拒绝,例如收入,我们如何将这些包含在最终的回归中?
我们已尝试阅读此内容,但有些困惑,因此我们非常感谢您的帮助 :)
【问题讨论】:
-
是的,你应该在建模之前替换你的缺失 - 但在 EG 而不是 Excel 中进行。您可以通过这种方式跟踪您的更改,如果您运行模型并改变主意如何处理特定的缺失案例,则更容易修复。插补是填补缺失值的术语——我不确定 EG 究竟是如何做到这一点的。这个问题也最好发布在 CrossValidated 上,因为它更多地涉及统计方法而不是编程。
-
欢迎来到 SO。请提供reproducible example... 至少,(1)“ESS 数据集”没有解释,(2)您对缺失值的期望处理完全不清楚。请澄清两者。
标签: sas imputation