【问题标题】:PySpark mllib p-values for logistic regression逻辑回归的 PySpark mllib p 值
【发布时间】:2019-04-11 04:29:15
【问题描述】:

我目前正在使用 ML-Lib 包(Spark 版本 2.1)在 PySpark 中运行逻辑回归。为了理解这些系数并检查它们的统计意义,我想研究相应的 p 值。

有没有办法使用 ML-Lib 包获取 p-vales?

【问题讨论】:

    标签: apache-spark apache-spark-mllib logistic-regression apache-spark-ml


    【解决方案1】:

    您可以使用 ML 库中的广义线性回归包来接收逻辑回归的 p 值:

    from pyspark.ml.regression import GeneralizedLinearRegression
    glr = GeneralizedLinearRegression(family="binomial", link="logit", maxIter=10, 
    regParam=0.0)
    model = glr.fit(dataset)
    summary = model.summary
    print("Coefficient Standard Errors: " + str(summary.coefficientStandardErrors))
    print("T Values: " + str(summary.tValues))
    print("P Values: " + str(summary.pValues))
    

    你可以在这里找到详细的解释:https://spark.apache.org/docs/2.2.0/ml-classification-regression.html#generalized-linear-regression

    请记住数据帧接收标准错误(以及 P 值)的特征值(以及矩阵可逆性的条件),因为在这种情况下,程序包会为您提供错误。

    【讨论】:

    • 当我尝试这个时,我收到以下错误:“java.lang.UnsupportedOperationException: No summary available for this GeneralizedLinearRegressionModel”
    • 据我所知,如果特征数量超过一定数量,pvalues似乎不再可用。
    猜你喜欢
    • 2016-04-04
    • 2016-02-06
    • 2018-04-06
    • 1970-01-01
    • 1970-01-01
    • 2016-09-26
    • 2016-08-24
    • 1970-01-01
    • 2018-04-29
    相关资源
    最近更新 更多