【发布时间】:2019-06-17 08:44:36
【问题描述】:
我在几列中有带有 NA 的调查数据集。因此,我决定使用“missForest”包执行多重插补来插补缺失值。这不是问题,但是我在检查我的数据后注意到,许多估算值是数字,列中的十进制值是以前的因子。
我假设 missForest 要求列是数字的(它需要 x 的 data.matrix)才能执行插补。
NRMSE 相当好,估算值列的均值与 NA 列相似。
我计划使用具有估算值的数据集进行多级线性回归,并且无论如何都会将因子列转换为数值。
这些带小数位的数值是否会造成问题?
finalmatrix <- data.matrix(final)
set.seed(666)
impforest <- missForest(finalmatrix, variablewise = TRUE, parallelize =
"forests")
【问题讨论】:
标签: r random-forest categorical-data survey imputation