【问题标题】:Subsample size in scikit-learn RandomForestClassifierscikit-learn RandomForestClassifier 中的子样本大小
【发布时间】:2017-04-12 09:05:07
【问题描述】:

如何控制用于训练森林中每棵树的子样本的大小? 根据 scikit-learn 的文档:

随机森林是一种适合多种决策的元估计器 数据集的各种子样本上的树分类器并使用 平均以提高预测精度和控制过拟合。 子样本大小始终与原始输入样本相同 大小,但如果 bootstrap=True,则使用替换绘制样本 (默认)。

所以bootstrap 允许随机性但找不到如何控制子样本的数量。

【问题讨论】:

    标签: machine-learning scikit-learn random-forest data-science


    【解决方案1】:

    Scikit-learn 不提供此选项,但您可以通过结合使用树和装袋元分类器的(较慢)版本轻松获得此选项:

    from sklearn.ensemble import BaggingClassifier
    from sklearn.tree import DecisionTreeClassifier
    
    clf = BaggingClassifier(base_estimator=DecisionTreeClassifier(), max_samples=0.5)
    

    顺便说一句,Breiman 的随机森林确实没有将子样本作为参数,完全依赖于 bootstrap,因此大约 (1 - 1 / e) 的样本用于构建每棵树。

    【讨论】:

    • 不要认为是这种情况,因为API 写道:“子样本大小始终与原始输入样本大小相同,但如果引导程序,则使用替换抽取样本=True(默认)”。
    【解决方案2】:

    其实你可以修改forest.py中的_generate_sample_indices函数来改变每次subsample的大小,感谢fastailib实现了一个函数set_rf_samples 为此,它看起来像这样

    def set_rf_samples(n):
        """ Changes Scikit learn's random forests to give each tree a random sample of
        n random rows.
        """
        forest._generate_sample_indices = (lambda rs, n_samples:
            forest.check_random_state(rs).randint(0, n_samples, n))
    

    您可以将此功能添加到您的代码中

    【讨论】:

    猜你喜欢
    • 2016-01-26
    • 2014-04-20
    • 2019-10-22
    • 2023-03-22
    • 1970-01-01
    • 2018-12-30
    • 2012-09-03
    • 2015-08-17
    • 1970-01-01
    相关资源
    最近更新 更多