【问题标题】:Calculating Kernel Density of every column in a Spark DataFrame计算 Spark DataFrame 中每一列的核密度
【发布时间】:2019-05-02 08:40:52
【问题描述】:

有没有办法计算 DataFrame 每一列的 KDE?

我有一个 DataFrame,其中每一列代表一个特征的值。 Spark MLLib 的 KDE 函数需要样本值的RDD[Double]。问题是我需要找到一种方法而不收集每一列的值,因为这会大大降低程序的速度。

有人知道我该如何解决这个问题吗?可悲的是,到目前为止我的所有尝试都失败了。

【问题讨论】:

    标签: apache-spark apache-spark-mllib


    【解决方案1】:

    也许您可以使用示例函数 (refer here) 创建一个新的 RDD,然后执行您的操作以获得最佳性能。

    【讨论】:

      猜你喜欢
      • 2017-04-14
      • 2019-01-04
      • 2018-04-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-11-21
      • 2015-08-28
      • 2011-08-28
      相关资源
      最近更新 更多