【发布时间】:2012-11-21 09:04:16
【问题描述】:
我一直在 R 中使用 700 万行数据(41 个特征)训练 randomForest 模型。这是一个示例调用:
myModel
我确实认为只有 50 棵树和 30 个终端节点,“myModel”的内存占用会很小。但它在转储文件中是 65 兆。该对象似乎拥有来自训练过程的各种预测、实际和投票数据。
如果我只想要森林,仅此而已?我想要一个很小的转储文件,稍后我可以加载它以快速做出预测。我觉得森林本身不应该那么大......
任何人都知道如何将这个傻瓜简化为我可以预测未来的东西吗?
【问题讨论】:
-
?randomForest建议不要使用带有大量变量的公式界面...如果您不使用公式界面,结果会有所不同吗??randomForest的 Value 部分还告诉你如何关闭一些输出(重要性矩阵、整个森林、邻近矩阵等)。 -
可能刚刚回答了我自己的问题...在模型中删除我不想要的字段似乎就足够了。如果我只是这样做: myModel$votes
-
如果您将投票对象设为 NULL,您将无法做出预测。
-
我认为您错过了 rF 的要点-它始终如您所说->预测,实际和投票数据-并且假设您训练 rF 的数据越大,模型越大;一种解决方案是对行进行聚类/在 cols (inptus) 上进行特征选择,以使矩阵更小;
-
@John,你为什么不发布一个小例子来说明你可以将这些组件归零并仍然进行预测?
标签: r artificial-intelligence data-mining random-forest