【问题标题】:Find number of similar elements in an RDD of (Array[Int] , Array[Int])在 (Array[Int] , Array[Int]) 的 RDD 中查找相似元素的数量
【发布时间】:2016-11-25 16:08:39
【问题描述】:

我有一个 Array[Int] 元组的 RDD,想知道数组中有多少元素是相似的,最好的方法是什么?

【问题讨论】:

  • “相似”是什么意思?

标签: arrays scala apache-spark rdd


【解决方案1】:

数组中公共元素的个数是集合交集的大小:

rdd.map { case (x, y) =>  x.toSet.intersect(y.toSet).size }

【讨论】:

    猜你喜欢
    • 2017-04-17
    • 2021-06-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-06-10
    • 2013-05-20
    • 2019-06-18
    相关资源
    最近更新 更多