【发布时间】:2012-12-14 16:38:55
【问题描述】:
我正在处理一个相当大的数据集(770K 记录,2K 个属性,几乎所有这些属性都是二项式但都是整数形式),
我想通过 10 倍交叉验证对数据应用决策树,但我遇到了一些问题:
1.为什么决策树(例如深度为 10)需要这么多时间来训练?实际上我在训练树之前将数据(因为它不平衡)平衡到原始大小的 40%(~320K 记录),但这仍然需要很多时间,是否有任何其他版本的决策树可以产生相同的性能和需要更少的时间? (将属性设为二项式会更快吗?)
2.如何优化决策树的参数?我应该在整个 X-validation 上优化它吗?
【问题讨论】:
标签: machine-learning data-mining rapidminer