【问题标题】:Combine multiple RDDs into one by column through key通过key将多个RDD逐列组合成一个
【发布时间】:2017-02-16 23:36:21
【问题描述】:

遇到了 RDD 问题。 说,我有三个RDD,它们是RDD[AttribClass1]RDD[AttribClass2]RDD[AttriClass3],每个AttribClass都有一个字段名作为id,我要做的就是将所有属性组合成一个大RDD组合类,比如说类是

ContainerClass(id: IDClass, attrib1: AttribClass1, attrib2: AttribClass2, attrib3: AttribClass3) 

我想通过加入 id 来获得 RDD[ContainerClass]。 我看到了类似的帖子,基于 find RDD by key,但不完全相同。 Spark RDD find by key

有没有人做过类似的事情?

在不将它们本地组合的情况下创建新 RDD 的最佳方法是什么?

谢谢, 船

【问题讨论】:

  • 添加一些说明:

标签: apache-spark rdd


【解决方案1】:

没关系,我认为了解如何执行此操作的最佳方法是查看 RDD API。这可以通过 groupByKey 方法,然后 coGroup 来完成。

【讨论】:

    猜你喜欢
    • 2015-01-10
    • 2019-05-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-06-15
    • 2020-12-18
    • 2019-12-19
    • 2020-12-19
    相关资源
    最近更新 更多