pyspark 决策树中的样本权重答案

【问题标题】：sample weights in pyspark decision treespyspark 决策树中的样本权重
【发布时间】：2017-09-17 04:26:25
【问题描述】：

您知道是否有某种方法可以在 pySpark (2.0+) 中将样本权重放在 DecisionTreeClassifier 算法上？提前致谢！

【问题讨论】：

【解决方案1】：

目前在 pyspark DecisionTree 或 DecisionTreeClassifier 类中没有超参数来指定类的权重（通常在有偏差的数据集中或对一个类的真实预测的重要性更重要的情况下需要）

在即将更新时，它可能会被添加，您可以在此处跟踪 jira 中的进度

有一个 git 分支已经实现了这个，虽然没有正式可用，但你现在可以使用这个拉取请求： https://github.com/apache/spark/pull/16722

您尚未指定当前方案以及为什么要使用权重，但现在建议的解决方法是

1.对数据集进行欠采样 如果您的数据集具有非常高的偏差，您可以对频率非常高的数据集执行随机欠采样

2。强制安装重物不是一个好的方法，但有效。您可以根据权重重复每个类的行。例如，对于二元分类，如果您需要 1:2 的权重进行 (0/1) 分类，您可以将标签为 1 的所有行重复两次。

【讨论】：