【发布时间】:2017-02-16 23:36:21
【问题描述】:
遇到了 RDD 问题。
说,我有三个RDD,它们是RDD[AttribClass1],RDD[AttribClass2],RDD[AttriClass3],每个AttribClass都有一个字段名作为id,我要做的就是将所有属性组合成一个大RDD组合类,比如说类是
ContainerClass(id: IDClass, attrib1: AttribClass1, attrib2: AttribClass2, attrib3: AttribClass3)
我想通过加入 id 来获得 RDD[ContainerClass]。
我看到了类似的帖子,基于 find RDD by key,但不完全相同。
Spark RDD find by key
有没有人做过类似的事情?
在不将它们本地组合的情况下创建新 RDD 的最佳方法是什么?
谢谢, 船
【问题讨论】:
-
添加一些说明:
标签: apache-spark rdd