【发布时间】:2013-06-25 09:50:30
【问题描述】:
这是我尝试使用 foreach 包所做的事情。 我有 600 行和 58000 列的数据集,其中有很多缺失值。
我们需要使用名为“missForest”的包来估算缺失值,其中它不是并行的,一次运行这些数据需要很长时间。
所以,我正在考虑将数据分成 7 个数据集(我有 7 个核心),它们具有相同的行数(我的行)和不同数量的 col(标记)。
然后使用%dopar%将数据集并行传递给missForest?
我不知道如何将数据划分为更小的数据集并将这些数据集传递给missForest,然后重新组合输出!
如果你能告诉我怎么做,我会非常感激?
这是一个小例子,形成 BLR 包,演示我的问题:
library(BLR)
library(missForest)
data(wheat)
X2<- prodNA(X, 0.1)
dim(X2) ## i need to divide X2 to several 7 data frames (ii)
X3<- missForest(X2)
X3$Ximp ## combine ii data frames
【问题讨论】:
-
你想做的事情看起来很奇怪。这些列被假定为预测缺失值的变量,因此您可以通过为每个模型使用不同的列来获得非常不同的结果。通常,我会拆分行而不是列!
-
亲爱的里卡多:谢谢你的好回答,变量在行中。这就是为什么我想除以上校,再次谢谢你
-
好的。那么,也许你应该先转置,呵呵。
标签: r foreach parallel-processing random-forest na