【发布时间】:2016-08-18 19:52:45
【问题描述】:
所以我的 rdd 包含如下数据:
(k, [v1,v2,v3...])
我想为值部分创建所有两组的组合。
所以最终地图应该是这样的:
(k1, (v1,v2))
(k1, (v1,v3))
(k1, (v2,v3))
我知道要获得价值部分,我会使用类似的东西
rdd.cartesian(rdd).filter(case (a,b) => a < b)
但是,这需要传递整个 rdd(对吗?)而不仅仅是值部分。我不确定如何达到我想要的目的,我怀疑它是一个 groupby。
另外,最终,我想达到 k,v 的样子
((k1,v1,v2),1)
我知道如何从我正在寻找的东西中得到它,但也许直接去那里更容易?
谢谢。
【问题讨论】:
-
欢迎来到stackoverflow。请格式化您的问题,去掉缩写和read this document。这将使您的问题对未来的读者有用。
标签: python apache-spark mapreduce pyspark