【发布时间】:2016-10-11 18:49:06
【问题描述】:
在 Scikit-Learn 的 documentation 的 DecisionTreeClassifier 类中,presort 超参数是这样描述的:
预排序:bool,可选(默认=False)
是否对数据进行预排序以加快寻找最佳分割的速度 在拟合。对于大型决策树的默认设置 数据集,将其设置为 true 可能会减慢训练过程。 当使用较小的数据集或有限的深度时,这可能 加快训练速度。
我不明白为什么预排序会减慢大型数据集的训练速度并加快小型数据集的训练速度。我希望完全相反。事实上,关于decision trees's computational complexity 的文档指出,如果不进行预排序,复杂度为 O(n_features * n_samples^2 * log(n_samples)),但经过预排序,复杂度变为 O(n_features * n_samples * log(n_samples))。
因此,我预计预分类需要一点时间,这会稍微减慢训练速度,但如果训练集很大,这将在很大程度上得到补偿。
这只是 Scikit-Learn 文档中的一个错误,还是我遗漏了什么?
编辑
我进行了一些测试,发现预分类似乎确实会减慢大型训练集的训练速度。事实上,我观察到像 O(n_features * n_samples^2 * log(n_samples)) 之类的东西,甚至更糟(即指数),有预排序,而 O(n_features * n_samples * log(n_samples)) 没有预排序。当 n_samples 小于几千时,预排序的训练似乎会更快一些。
所以经验上的答案是“是”,但我很想了解原因。
【问题讨论】:
-
看起来 scikit-learn 在 0.22 版本中弃用了这个参数,并将在 0.24 版本中删除它。我不知道它在幕后做了什么让大型数据集的速度变慢,但我想我会指出这一点。
标签: scikit-learn time-complexity decision-tree