【发布时间】:2017-05-12 23:32:32
【问题描述】:
我对 Spark Scala 从系列键获取第一个值有疑问,我创建了一个新的 RDD,如下所示:
[(a,1),(a,2),(a,3),(a,4),(b,1),(b,2),(a,3),(a,4),(a,5),(b,8),(b,9)]
我想获取这样的结果:
[(a,1),(b,1),(a,3),(b,8)]
如何使用 RDD 中的 scala 来做到这一点
【问题讨论】:
-
Spark 不维护你的集合的顺序,所以这是你现有数据结构无法做到的。您需要引入一个用于对数据进行排序并使用窗口函数的键:databricks.com/blog/2015/07/15/…
-
@lee 不太明白你想要做什么?您能解释一下您要获取的系列吗?
-
@SumeetSharma 我认为他只想保留每组具有相同键的连续杯中的第一个杯,但 RDD 不保持顺序,因此组会与初始序列不同跨度>
-
你能分享你已经尝试过的吗?
标签: scala apache-spark rdd