回归树预测 Spark 中的连续变量

【问题标题】：Regression Trees to Predict Continous Variables in Spark回归树预测 Spark 中的连续变量
【发布时间】：2016-10-03 18:18:32
【问题描述】：

我想使用 PySpark 回归树来预测连续变量，而不是对数据进行分类。每个终端节点的 EG 使用剩余训练数据的平均值。并且标签是 [0, infinity] 实数。

这在 Spark 中可行吗？该文档使用术语回归树：http://spark.apache.org/docs/latest/mllib-decision-tree.html#regression，但它喜欢预测变量是连续的，而不是预测的。

【问题讨论】：

【解决方案1】：

如果您访问this github page，您可以在 Spark 文档的示例中看到他们使用的示例数据。如果将其放入本地 HDFS 目录，则可以运行以下命令：

import MLUtils


data = MLUtils.loadLibSVMFile(sc, 'sample_libsvm_data.txt') 
data.map(lambda x: x.label).distinct().collect()

这个输出是[0.0, 1.0]。这意味着在因变量是连续的意义上，它不是回归树。这些特征似乎是连续的，但不幸的是不是输出。看起来他们还没有为连续 y 变量实现决策树。

【讨论】：