【发布时间】:2016-09-09 20:15:31
【问题描述】:
通过搜索和询问,我发现了许多可以用来利用服务器所有内核的软件包,以及许多可以执行随机森林的软件包。
我对此很陌生,我迷失在所有并行化随机森林训练的方法之间。您能否就使用和/或避免使用它们中的每一个的原因或它们的某些特定组合(有或没有caret?)提供一些建议?
并行化包:
doParallel,
doSNOW,
doSMP(已停产?),
doMC
(那么mclapply 呢?)
随机森林包:
[caret + 以下一些]
rf,
parRF,
randomForest,
ranger,
Rborist,
parallelRandomForest(使我的 R Studio 会话崩溃...)
谢谢
【问题讨论】:
-
这是否意味着您决定需要大量的树?
-
感谢您的建议(以及一些特征工程)以及培训时间,我已经设法减少了使用的特征数量。但不幸的是,我似乎仍然需要有很多树,是的。 (但我可能做错了一些事情,我还在探索中。
-
一般建议:这个问题有点宽泛,所以它可能不会吸引太多答案。例如,最好只关注并行计算的 R 包,甚至更好地询问带有随机森林的单个包。
-
我知道,我什至预计它会被否决。问题是,我发现了很多东西,以及并行化包和随机森林包的组合,我迷失了哪种组合适合我的需求。
标签: r parallel-processing random-forest