【发布时间】:2017-05-26 23:49:56
【问题描述】:
我想使用 Java Spark 来比较两个 JavaPairRDD 基于它们的键,比较它们的值以查看相同的键是否具有完全相同的值。
现在,我只检查交集和并集的 count(),但这还不够,如下所示:
JavaPairRDD<String, String> intersectionJavaPairRDD = hBaseJavaPairRDD.intersection(hiveJavaPairRDD);
JavaPairRDD<String, String> unionJavaPairRDD = hBaseJavaPairRDD.union(hiveJavaPairRDD).distinct();
if (intersectionJavaPairRDD.count() != unionJavaPairRDD.count()
|| hiveJavaPairRDD.count() != hBaseJavaPairRDD.count()) {
System.err.println(
"ERROR: SxS validation failed...");
System.exit(-1);
}
当每个值具有相同的键时,我如何比较它们?
非常感谢!
【问题讨论】:
-
您可以使用 combineByKey / AggregateByKey 来比较值。
标签: java apache-spark rdd