避免 RDD 嵌套在 Spark 中而不使用 Array答案

【问题标题】：Avoid RDD nested in Spark without Array避免 RDD 嵌套在 Spark 中而不使用 Array
【发布时间】：2015-08-30 06:02:03
【问题描述】：

我有一个大问题！

我有一个 RDD[(Int, Vector)] ，其中 Int 是一种标签。

例如：

(0, (a,b,c) );
(0, (d,e,f) );
(1, (g,h,i) )

等等……

现在，我需要像这样使用这个 RDD（我称之为 myrdd）：

myrdd.map{  case(l,v) => 
   myrdd.map { case(l_, v_) => 
      compare(v, v_)
   }
}

现在，我知道在 spark 中使用 RDD 嵌套是不可能的。

我可以使用数组绕过这个问题。但对于我的问题，我不能使用 Array 或内存中的任何内容。

如何在不使用 ARRAY 的情况下解决我的问题？

提前致谢！！！

【问题讨论】：

【解决方案1】：

cartesian 听起来应该可以：

myrdd.cartesian(myrdd).map{
  case ((_,v),(_,v_)) => compare(v,v_)
}

【讨论】：