PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数？答案

【问题标题】：Is there in PySpark a parameter equivalent to scikit-learn's sample_weight?PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数？
【发布时间】：2019-07-09 09:48:13
【问题描述】：

我目前正在使用scikit-learn 库提供的SGDClassifier。当我使用fit 方法时，我可以设置sample_weight 参数：

应用于单个样本的权重。如果没有提供，统一假设权重。这些权重将乘以 class_weight （通过构造函数传递）如果 class_weight 是指定

我想切换到 PySpark 并使用 LogisticRegression 类。无论如何，我找不到类似于sample_weight 的参数。有一个weightCol 参数，但我认为它做了一些不同的事情。

你有什么建议吗？

【问题讨论】：

我认为weightCol 正是这样做的
我明白了，@desertnaut 如果你正式回答，我会接受你的回答。我认为这是不同的东西，但似乎你是对的。

标签： python scikit-learn pyspark apache-spark-mllib apache-spark-ml

【解决方案1】：

有一个weightCol 参数，但我认为它做了一些不同的事情。

相反，Spark ML 的weightCol 正是这样做的；来自docs（强调添加）：

weightCol = Param(parent='undefined', name='weightCol', doc='weight 列名。如果未设置或为空，我们将处理所有实例权重为 1.0。')

【讨论】：