高效/多线程运行回归预测答案

【问题标题】：Efficiently/multithread run regression predict高效/多线程运行回归预测
【发布时间】：2016-06-27 19:11:07
【问题描述】：

我知道有很多关于 mclapply 的内存消耗问题的帖子，但我仍然在尝试看看是否有什么可以帮助我的情况。

我正在将一个随机森林模型拟合到一个 ~600 x 60,000（通过变量矩阵 X 响应 y）矩阵：

library(randomForest)
fit <- randomForest(x=X,y=y)

然后我想将该拟合与随机拟合进行比较，为此我正在做的是：

library(parallel)
set.seed(1)
random.list <- mclapply(1:1000,function(f){
  idx <- shuffle(nrow(X))
  random.y <- predict(object=fit,newdata=X[idx,],type="response")
}, mc.cores = ncores)

不幸的是，这太占用内存（需要超过 100GB），因此不切实际。

顺便说一句，我运行的环境是 Linux。

有什么建议吗？

【问题讨论】：

标签： r parallel-foreach mclapply

【解决方案1】：

似乎mclapply2 {snpEnrichment} 是一个合理的轻松解决方案

【讨论】：