【发布时间】:2017-02-24 16:48:43
【问题描述】:
我有一个数据框,其中一些变量(列)是阶乘,而对于某些记录我有缺失值 (NA)。
问题是:
-
在阶乘变量中替换\估算 NA 的正确方法是什么?
例如,具有 4 个级别的 VarX {“A”、“B”、“C”、“D”} - 替换 NA 的首选值是什么? A B C D?也许只有0?也许用这个变量观察的大多数水平来估算?
如何根据对 1 的回答来实现这种插补?
-
一旦解决了 1&2,我将使用以下内容为阶乘变量创建虚拟变量:
is.fact <- sapply(my_data, is.factor) my_data.dummy_vars <- dummy.data.frame(my_data[, is.fact], sep = ".")之后,如何将
my_data中的所有阶乘变量替换为我提取到my_data.dummy_vars中的虚拟变量?
我的用例是事后计算主成分(这需要所有变量都有数值,因此是虚拟变量)
谢谢
【问题讨论】:
-
您能否提供一个小例子来说明您拥有什么以及您期望什么?你打算如何对待NA?我不知道这是否是一个重复的问题,例如见this。
-
不确定我应该如何处理阶乘变量的 NA。在转换为虚拟变量之前用 0 替换它们是个好主意吗?如果是这样,我很乐意学习如何这样做
-
@DavidLeal 编辑后见我的帖子,我希望我的意图现在更清楚了。
标签: r dataframe dummy-variable