【问题标题】:sample weights in pyspark decision treespyspark 决策树中的样本权重
【发布时间】:2017-09-17 04:26:25
【问题描述】:

您知道是否有某种方法可以在 pySpark (2.0+) 中将样本权重放在 DecisionTreeClassifier 算法上? 提前致谢!

【问题讨论】:

    标签: pyspark decision-tree


    【解决方案1】:

    目前在 pyspark DecisionTree 或 DecisionTreeClassifier 类中没有超参数来指定类的权重(通常在有偏差的数据集中或对一个类的真实预测的重要性更重要的情况下需要)

    在即将更新时,它可能会被添加,您可以在此处跟踪 jira 中的进度

    有一个 git 分支已经实现了这个,虽然没有正式可用,但你现在可以使用这个拉取请求: https://github.com/apache/spark/pull/16722

    您尚未指定当前方案以及为什么要使用权重,但现在建议的解决方法是

    1.对数据集进行欠采样 如果您的数据集具有非常高的偏差,您可以对频率非常高的数据集执行随机欠采样

    2。强制安装重物 不是一个好的方法,但有效。您可以根据权重重复每个类的行。 例如,对于二元分类,如果您需要 1:2 的权重进行 (0/1) 分类,您可以将标签为 1 的所有行重复两次。

    【讨论】:

    • 虽然此链接可能会回答问题,但最好在此处包含答案的基本部分并提供链接以供参考。如果链接页面发生更改,仅链接答案可能会失效。 - From Review
    • @chade_ 已详细解答
    • @pratiklodha 我见过。我删除了我的评论并收回了我的旗帜。
    • @AbdulMalik 已经详细说明了
    猜你喜欢
    • 2016-08-10
    • 2017-09-28
    • 2018-09-21
    • 2017-03-12
    • 1970-01-01
    • 2018-11-30
    • 2010-11-11
    • 2020-10-18
    • 2016-01-02
    相关资源
    最近更新 更多