【问题标题】:Avoid RDD nested in Spark without Array避免 RDD 嵌套在 Spark 中而不使用 Array
【发布时间】:2015-08-30 06:02:03
【问题描述】:

我有一个大问题!

我有一个 RDD[(Int, Vector)] ,其中 Int 是一种标签。

例如:

(0, (a,b,c) );
(0, (d,e,f) );
(1, (g,h,i) )

等等……

现在,我需要像这样使用这个 RDD(我称之为 myrdd):

myrdd.map{  case(l,v) => 
   myrdd.map { case(l_, v_) => 
      compare(v, v_)
   }
}

现在,我知道在 spark 中使用 RDD 嵌套是不可能的。

我可以使用数组绕过这个问题。但对于我的问题,我不能使用 Array 或内存中的任何内容。

如何在不使用 ARRAY 的情况下解决我的问题?

提前致谢!!!

【问题讨论】:

    标签: scala apache-spark rdd


    【解决方案1】:

    cartesian 听起来应该可以:

    myrdd.cartesian(myrdd).map{
      case ((_,v),(_,v_)) => compare(v,v_)
    }
    

    【讨论】:

    • 感谢您的回答。这意味着如果我的 rdd 有 N 个元素,笛卡尔积会给我一个 N*N 个元素的 rdd,对吧?
    猜你喜欢
    • 1970-01-01
    • 2014-07-12
    • 1970-01-01
    • 1970-01-01
    • 2016-01-20
    • 1970-01-01
    • 1970-01-01
    • 2014-12-02
    • 1970-01-01
    相关资源
    最近更新 更多