SAS Enterprise Guide，缺失变量的不同处理答案

【问题标题】：SAS Enterprise Guide, different treatments for missing variablesSAS Enterprise Guide，缺失变量的不同处理
【发布时间】：2016-03-24 10:14:22
【问题描述】：

我们正在使用 ESS 数据集，但不确定如何处理 SAS Enterprise Guide 中的缺失值问题。我们的因变量是“主观幸福感”，旨在包括大量控制变量——因此，我们有一个数据集包含大量缺失值的情况。

我们不想使用“列表删除”。相反，我们希望根据被访者的回答以不同的方式处理不同的缺失：“不回答”、“不适用”、“拒绝”、“不知道”。例如，我们计划对不适用进行成对删除，而我们可能希望使用例如其他一些回答的平均值 - 取决于问题（假设受访者的回答提供有关 MCAR、MAR、NMAR 的信息）。

我们的主要问题是：

目前，我们缺失的变量在数据集中以不同的方式标记（99、77、999、88 等），我们是否应该在继续使用 SAS Enterprise Guide 之前在 Excel 中替换这些值？如果是 - 我们应该如何最好地替换它们，因为它们应该以不同的方式处理？
我们如何告诉 SAS Enterprise Guide 以不同的方式处理不同的缺失？
如果我们使用虚拟变量来标记拒绝，例如收入，我们如何将这些包含在最终的回归中？

我们已尝试阅读此内容，但有些困惑，因此我们非常感谢您的帮助 :)

【问题讨论】：

是的，你应该在建模之前替换你的缺失 - 但在 EG 而不是 Excel 中进行。您可以通过这种方式跟踪您的更改，如果您运行模型并改变主意如何处理特定的缺失案例，则更容易修复。插补是填补缺失值的术语——我不确定 EG 究竟是如何做到这一点的。这个问题也最好发布在 CrossValidated 上，因为它更多地涉及统计方法而不是编程。
欢迎来到 SO。请提供reproducible example... 至少，（1）“ESS 数据集”没有解释，（2）您对缺失值的期望处理完全不清楚。请澄清两者。

【解决方案1】：

在技术说明中，SAS 提供了特殊的缺失值：.a .b .c 等（不区分大小写）。替换 SAS 中的数值，例如99 =.a77 = .b 例如，决策树将能够将这些作为单独的值进行处理。

要在回归模型中保留缺失观测值的信息，您必须做出某种权衡（找到对您的问题危害最小的解决方案）。

一个经典的解决方案是创建虚拟变量并替换具有平均值的缺失值。包括假人和模型中的原始变量。可能的问题：系数会有偏差，多重共线性，太多的类别/变量。
另一种方法是将变量分类。做它只是按价值（例如十分位数），您可能会遭受信息丢失。用理论来做你可能会遭受确认偏差。
更高级的方法是计算信息价值 (http://support.sas.com/resources/papers/proceedings13/095-2013.pdf) 你的自变量。从而替换所有值，包括失踪者。当然，这将再次导致偏见和损失信息。但至少可能是识别的一个很好的步骤有用/无用的缺失值。

【讨论】：