【问题标题】:To merge the value key:value RDD having common key合并值键:具有公共键的值 RDD
【发布时间】:2019-10-14 22:53:09
【问题描述】:

我是使用 python spark 的新手,如果问题听起来很基本,请原谅。如果我有 RDD:

[(((1, 0), 0.0), (2, 0)),
 (((1, 0), 0.0), (3, 0)),
 (((2, 0), -0.0), (1, 0)),
 (((2, 0), -0.0), (3, 0)),
 (((3, 0), -0.0), (1, 0)),
 (((3, 0), -0.0), (2, 0))]  

我想合并具有公共键的值。所以基本上我的输出应该是 -

[(((1, 0), 0.0), [(2, 0),(3,0)])
 (((2, 0), -0.0), [(1, 0),(3,0)])
 (((3, 0), -0.0), [(1, 0),(2,0)])]  

我尝试使用groupByKey(),但仍然无法获取解决方案。任何帮助将不胜感激。谢谢。

【问题讨论】:

    标签: python scala apache-spark rdd


    【解决方案1】:

    这应该可以解决问题: rdd.groupByKey().mapValues(list).collect()

    【讨论】:

    • 你也可以accept 回答吗?
    猜你喜欢
    • 2015-04-22
    • 2018-11-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-03-12
    • 1970-01-01
    • 2017-11-01
    • 2017-11-07
    相关资源
    最近更新 更多