Spark：从管道模型中提取 ML 逻辑回归模型的摘要答案

【问题标题】：Spark: Extracting summary for a ML logistic regression model from a pipeline modelSpark：从管道模型中提取 ML 逻辑回归模型的摘要
【发布时间】：2018-05-20 23:31:41
【问题描述】：

我已经使用管道估计了逻辑回归。

我在拟合逻辑回归之前的最后几行：

from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import LogisticRegression
lr = LogisticRegression(featuresCol="lr_features", labelCol = "targetvar")
# create assember to include encoded features
    lr_assembler = VectorAssembler(inputCols= numericColumns + 
                               [categoricalCol + "ClassVec" for categoricalCol in categoricalColumns],
                               outputCol = "lr_features")
from pyspark.ml.classification import LogisticRegression
from pyspark.ml import Pipeline
# Model definition:
lr = LogisticRegression(featuresCol = "lr_features", labelCol = "targetvar")
# Pipeline definition:
lr_pipeline = Pipeline(stages = indexStages + encodeStages +[lr_assembler, lr])
# Fit the logistic regression model:
lrModel = lr_pipeline.fit(train_train)

然后我尝试运行模型的摘要。但是，下面的代码行：

trainingSummary = lrModel.summary

导致：'PipelineModel' 对象没有属性 'summary'

关于如何从管道模型中提取回归模型中通常包含的摘要信息的任何建议？

非常感谢！

【问题讨论】：

标签： python apache-spark pyspark pipeline logistic-regression

【解决方案1】：

只需从阶段获取模型：

lrModel.stages[-1].summary

如果模型在管道中较早，则将 -1 替换为其索引。

【讨论】：