【发布时间】:2019-05-02 08:40:52
【问题描述】:
有没有办法计算 DataFrame 每一列的 KDE?
我有一个 DataFrame,其中每一列代表一个特征的值。 Spark MLLib 的 KDE 函数需要样本值的RDD[Double]。问题是我需要找到一种方法而不收集每一列的值,因为这会大大降低程序的速度。
有人知道我该如何解决这个问题吗?可悲的是,到目前为止我的所有尝试都失败了。
【问题讨论】:
标签: apache-spark apache-spark-mllib