【发布时间】:2016-10-03 18:18:32
【问题描述】:
我想使用 PySpark 回归树来预测连续变量,而不是对数据进行分类。每个终端节点的 EG 使用剩余训练数据的平均值。并且标签是 [0, infinity] 实数。
这在 Spark 中可行吗?该文档使用术语回归树:http://spark.apache.org/docs/latest/mllib-decision-tree.html#regression,但它喜欢预测变量是连续的,而不是预测的。
【问题讨论】:
标签: pyspark decision-tree