【发布时间】:2019-10-14 22:53:09
【问题描述】:
我是使用 python spark 的新手,如果问题听起来很基本,请原谅。如果我有 RDD:
[(((1, 0), 0.0), (2, 0)),
(((1, 0), 0.0), (3, 0)),
(((2, 0), -0.0), (1, 0)),
(((2, 0), -0.0), (3, 0)),
(((3, 0), -0.0), (1, 0)),
(((3, 0), -0.0), (2, 0))]
我想合并具有公共键的值。所以基本上我的输出应该是 -
[(((1, 0), 0.0), [(2, 0),(3,0)])
(((2, 0), -0.0), [(1, 0),(3,0)])
(((3, 0), -0.0), [(1, 0),(2,0)])]
我尝试使用groupByKey(),但仍然无法获取解决方案。任何帮助将不胜感激。谢谢。
【问题讨论】:
标签: python scala apache-spark rdd