【发布时间】:2014-04-20 00:44:28
【问题描述】:
谁能解释一下 scikit learn 中 RandomForestClassifier 和 ExtraTreesClassifier 之间的区别。我花了很多时间阅读这篇论文:
P。 Geurts, D. Ernst. 和 L. Wehenkel,“极端随机树”,机器学习,63(1), 3-42, 2006
似乎这些是 ET 的区别:
1) 在拆分时选择变量时,样本是从整个训练集中抽取的,而不是训练集的引导样本。
2) 从每次拆分时样本中的值范围完全随机选择拆分。
这两件事的结果是更多的“叶子”。
【问题讨论】:
-
我对 extratreeclassifier 如此感兴趣的原因是我在特定问题上使用 ET 获得了更好的结果。我的特征向量大于 200 个变量,并且变量非常嘈杂。标准 RDF 分类器的结果很差,但 ET 的 F1 分数超过 90%。类不平衡,正类样本相对较少,负类样本较多。
标签: scikit-learn random-forest