【问题标题】:How to print best model params in Apache Spark Pipeline?如何在 Apache Spark Pipeline 中打印最佳模型参数?
【发布时间】:2015-12-10 12:02:17
【问题描述】:

我正在使用 Apache Spark 的管道 API 来验证参数。 我正在像这样构建 TrainValidationSplitModel :

Pipeline pipeline = ...
ParamMap[] paramGrid = ...

TrainValidationSplit trainValidationSplit = new TrainValidationSplit().setEstimator(pipeline).setEvaluator(new MulticlassClassificationEvaluator()).setEstimatorParamMaps(paramGrid).setTrainRatio(0.8);
TrainValidationSplitModel model = trainValidationSplit.fit(training);

我的问题是:如何提取和打印最佳训练模型的参数?

【问题讨论】:

    标签: java apache-spark machine-learning apache-spark-mllib


    【解决方案1】:

    我终于做到了。 Spark 在训练后打印此指标。我有 ERROR 日志级别的 spark,所以我没有看到这个:

    2015-10-21 12:57:33,828 [INFO  org.apache.spark.ml.tuning.TrainValidationSplit]
    Train validation split metrics: WrappedArray(0.7141940371838821, 0.7358721053749735)
    
    2015-10-21 12:57:33,831 [INFO  org.apache.spark.ml.tuning.TrainValidationSplit]
    Best set of parameters:
    {
        hashingTF_79cf758f5ab1-numFeatures: 2000000,
        nb_67d55ce4e1fc-smoothing: 1.0
    }
    
    2015-10-21 12:57:33,831 [INFO  org.apache.spark.ml.tuning.TrainValidationSplit]
    Best train validation split metric: 0.7358721053749735.
    

    现在我在 log4j.properties 文件中为类 TrainValidationSplit 添加了级别 INFO:

    log4j.logger.org.apache.spark.ml.tuning.TrainValidationSplit=INFO
    log4j.additivity.org.apache.spark.ml.tuning.TrainValidationSplit=false
    

    【讨论】:

    • 我正在使用 pyspark 来实现相同的目的。但我无法在 pyspark 中通过
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-08-07
    • 2022-06-20
    • 2017-04-10
    • 2016-07-15
    • 2019-04-19
    • 2015-07-15
    相关资源
    最近更新 更多