【发布时间】:2014-05-29 07:44:48
【问题描述】:
我有一个大小为 38 MB 的训练集(12 个属性,420000 行)。我正在运行下面的R sn-p,使用randomForest 训练模型。这对我来说需要几个小时。
rf.model <- randomForest(
Weekly_Sales~.,
data=newdata,
keep.forest=TRUE,
importance=TRUE,
ntree=200,
do.trace=TRUE,
na.action=na.roughfix
)
我认为,由于na.roughfix,执行需要很长时间。训练集中有这么多NA's。
有人可以告诉我如何提高性能吗?
我的系统配置是:
Intel(R) Core i7 CPU @ 2.90 GHz
RAM - 8 GB
HDD - 500 GB
64 bit OS
【问题讨论】:
-
至关重要的是,您没有告诉我们 F、特征数或数据中的列数;请参阅下文了解为什么 F 的影响是二次的。 (但它看起来像 Kaggle Walmart Store Sales 数据集。在该数据中,train.csv 只有 Store, Dept, IsHoliday 但 features.csv添加了 10 个功能,其中大部分都没用。添加您自己的用户生成的功能,F 可以是 4 到 50+ 之间的任何值......就像我一直在敲门一样,它会产生巨大的差异。积极地找出低-重要性特征是并且排除它们,至少对于探索,而不是最终模型生成。)
标签: r performance random-forest