【发布时间】:2017-01-21 16:11:26
【问题描述】:
这个问题类似于this one。在 pyspark 中执行 TrainValidationSplit 后,我想打印最佳模型参数。我找不到其他用户用来回答问题的文本,因为我正在使用 jupyter 并且日志从终端消失...
部分代码为:
pca = PCA(inputCol = 'features')
dt = DecisionTreeRegressor(featuresCol=pca.getOutputCol(),
labelCol="energy")
pipe = Pipeline(stages=[pca,dt])
paramgrid = ParamGridBuilder().addGrid(pca.k, range(1,50,2)).addGrid(dt.maxDepth, range(1,10,1)).build()
tvs = TrainValidationSplit(estimator = pipe, evaluator = RegressionEvaluator(
labelCol="energy", predictionCol="prediction", metricName="mae"), estimatorParamMaps = paramgrid, trainRatio = 0.66)
model = tvs.fit(wind_tr_va);
提前致谢。
【问题讨论】:
标签: python apache-spark pyspark apache-spark-mllib