【问题标题】:Is there in PySpark a parameter equivalent to scikit-learn's sample_weight?PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数?
【发布时间】:2019-07-09 09:48:13
【问题描述】:

我目前正在使用scikit-learn 库提供的SGDClassifier。当我使用fit 方法时,我可以设置sample_weight 参数:

应用于单个样本的权重。如果没有提供,统一 假设权重。这些权重将乘以 class_weight (通过构造函数传递)如果 class_weight 是 指定

我想切换到 PySpark 并使用 LogisticRegression 类。无论如何,我找不到类似于sample_weight 的参数。有一个weightCol 参数,但我认为它做了一些不同的事情。

你有什么建议吗?

【问题讨论】:

  • 我认为weightCol 正是这样做的
  • 我明白了,@desertnaut 如果你正式回答,我会接受你的回答。我认为这是不同的东西,但似乎你是对的。

标签: python scikit-learn pyspark apache-spark-mllib apache-spark-ml


【解决方案1】:

有一个weightCol 参数,但我认为它做了一些不同的事情。

相反,Spark ML 的weightCol 正是这样做的;来自docs(强调添加):

weightCol = Param(parent='undefined', name='weightCol', doc='weight 列名。如果未设置或为空,我们将处理所有实例权重为 1.0。')

【讨论】:

    猜你喜欢
    • 2017-11-23
    • 2018-05-04
    • 2015-08-28
    • 1970-01-01
    • 2016-07-05
    • 2016-02-23
    • 2023-03-09
    • 2016-02-23
    • 2017-11-09
    相关资源
    最近更新 更多