在 RapidMiner 中优化决策树参数答案

【问题标题】：Optimize Decision Tree Parameters in RapidMiner在 RapidMiner 中优化决策树参数
【发布时间】：2012-12-14 16:38:55
【问题描述】：

我正在处理一个相当大的数据集（770K 记录，2K 个属性，几乎所有这些属性都是二项式但都是整数形式），

我想通过 10 倍交叉验证对数据应用决策树，但我遇到了一些问题：

1.为什么决策树（例如深度为 10）需要这么多时间来训练？实际上我在训练树之前将数据（因为它不平衡）平衡到原始大小的 40%（~320K 记录），但这仍然需要很多时间，是否有任何其他版本的决策树可以产生相同的性能和需要更少的时间？（将属性设为二项式会更快吗？）

2.如何优化决策树的参数？我应该在整个 X-validation 上优化它吗？

【问题讨论】：

【解决方案1】：

你有理由将二进制属性标记为整数吗？对于二项式属性，归纳确实更快，否则树归纳算法需要为每个节点的每个属性找到最佳拆分。

诱导这样一棵树需要多长时间？您使用的是哪种算法？

关于参数优化：需要在每个 X-validation 循环内的单独集合上完成。请参阅此工作流程作为如何执行此操作的示例：http://www.myexperiment.org/workflows/3263.html

【讨论】：

所以你的意思是我们必须在 X-validation operator 内部传递的训练数据上优化决策树的参数，我必须优化哪些参数？（随着组合数量的增长非常快，我希望优化的参数数量最少）我使用决策树（没有特殊版本）我猜最小增益（我使用基尼指数）置信度和预修剪替代方案的数量无效，并且我操纵了“拆分的最小尺寸”和“最大深度”，但这需要很多时间，比如 770K 的记录和 350 个属性，一个 DT 需要 1 小时
会不会这么长，因为我有整数属性而不是二项式属性？