【发布时间】:2015-07-08 03:36:36
【问题描述】:
假设我有这个示例作业(在带有 Java API 的 Groovy 中):
def set1 = []
def set2 = []
0.upto(10) { set1 << it }
8.upto(20) { set2 << it }
def rdd1 = context.parallelize(set1)
def rdd2 = context.parallelize(set2)
//What next?
如何获得两者之间的差集?我知道union 可以创建一个 RDD,其中包含这些 RDD 中的所有数据,但是我该如何做相反的事情呢?
【问题讨论】:
标签: groovy apache-spark