【发布时间】:2016-11-25 16:08:39
【问题描述】:
我有一个 Array[Int] 元组的 RDD,想知道数组中有多少元素是相似的,最好的方法是什么?
【问题讨论】:
-
“相似”是什么意思?
标签: arrays scala apache-spark rdd
我有一个 Array[Int] 元组的 RDD,想知道数组中有多少元素是相似的,最好的方法是什么?
【问题讨论】:
标签: arrays scala apache-spark rdd
数组中公共元素的个数是集合交集的大小:
rdd.map { case (x, y) => x.toSet.intersect(y.toSet).size }
【讨论】: