计算 Spark DataFrame 中每一列的核密度答案

【问题标题】：Calculating Kernel Density of every column in a Spark DataFrame计算 Spark DataFrame 中每一列的核密度
【发布时间】：2019-05-02 08:40:52
【问题描述】：

有没有办法计算 DataFrame 每一列的 KDE？

我有一个 DataFrame，其中每一列代表一个特征的值。 Spark MLLib 的 KDE 函数需要样本值的RDD[Double]。问题是我需要找到一种方法而不收集每一列的值，因为这会大大降低程序的速度。

有人知道我该如何解决这个问题吗？可悲的是，到目前为止我的所有尝试都失败了。

【问题讨论】：

【解决方案1】：

也许您可以使用示例函数 (refer here) 创建一个新的 RDD，然后执行您的操作以获得最佳性能。

【讨论】：