【问题标题】:Regression Trees to Predict Continous Variables in Spark回归树预测 Spark 中的连续变量
【发布时间】:2016-10-03 18:18:32
【问题描述】:

我想使用 PySpark 回归树来预测连续变量,而不是对数据进行分类。每个终端节点的 EG 使用剩余训练数据的平均值。并且标签是 [0, infinity] 实数。

这在 Spark 中可行吗?该文档使用术语回归树:http://spark.apache.org/docs/latest/mllib-decision-tree.html#regression,但它喜欢预测变量是连续的,而不是预测的。

【问题讨论】:

    标签: pyspark decision-tree


    【解决方案1】:

    如果您访问this github page,您可以在 Spark 文档的示例中看到他们使用的示例数据。如果将其放入本地 HDFS 目录,则可以运行以下命令:

    import MLUtils
    
    
    data = MLUtils.loadLibSVMFile(sc, 'sample_libsvm_data.txt') 
    data.map(lambda x: x.label).distinct().collect()
    

    这个输出是[0.0, 1.0]。这意味着在因变量是连续的意义上,它不是回归树。这些特征似乎是连续的,但不幸的是不是输出。看起来他们还没有为连续 y 变量实现决策树。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-05-23
      • 2014-01-18
      • 1970-01-01
      • 2020-02-22
      • 2018-04-05
      • 2022-01-09
      • 2015-03-27
      • 2020-03-21
      相关资源
      最近更新 更多