【发布时间】:2015-12-18 15:03:39
【问题描述】:
我有RDD[List[Double],List[Double]]形式的数据,例如:
sampleData =
(
((1.1, 1.2, 1.3), (1.1, 1.5, 1.2)),
((3.0, 3.3, 3.3), (3.1, 3.2, 3.6))
)
我想调用 Statistics.corr(a, b) 其中 a 来自第一个 List[Double] 而 b 来自第二个 List[Double]
我想要的结果是 (1.1, 1.2, 1.3), (1.1, 1.5, 1.2) 和 (3.0, 3.3, 3.3), (3.1, 3.2, 3.6) 的 corr() 函数的 2 个相关值
我尝试的解决方案是:
Statistics.corr(sampleData.flatMap(_._1), sampleData.flatMap(_._2))
这给了我一个 (1.1, 1.2, 1.3, 3.0, 3.3, 3.3), (1.1, 1.5, 1.2, 3.1, 3.2, 3.6) 的相关性,这不是我想要的
【问题讨论】:
标签: scala apache-spark apache-spark-mllib