【发布时间】:2018-04-10 16:04:56
【问题描述】:
我有如下数据:
+----+----+
|user|item|
+----+----+
| a| 1|
| a| 2|
| a| 3|
| b| 1|
| b| 5|
| b| 4|
| b| 7|
| c| 10|
| c| 2|
+----+----+
我希望得到如下转换后的数据:
(a,(a,1))
(a,(a,2))
(a,(a,3))
(b,(b,1))
(b,(b,5))
(b,(b,4))
(b,(b,7))
(c,(c,10))
(c,(c,2))
它们可能是单独的 rdd。对我来说没问题。
可以在 scala 和 java 中使用数据集以及 groupbykey 和 flatmapgroups 的组合来完成,但不幸的是 pyspark 中没有数据集或 flatmapgroups。
我在 pypsark 上尝试了一些 flatmap 和 flatmapvalues 转换,但我无法获得正确的结果。
如何通过使用 pyspark 获得预期结果?
【问题讨论】:
标签: python apache-spark pyspark rdd flatmap