【发布时间】:2015-06-14 18:19:44
【问题描述】:
在 Spark 版本 1.2.0 中,可以使用 subtract 和 2 个 SchemRDDs 来结束与第一个不同的内容
val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
onlyNewData 包含todaySchemRDD 中不存在于yesterdaySchemaRDD 中的行。
如何在 Spark 版本 1.3.0 中使用 DataFrames 实现这一点?
【问题讨论】:
标签: apache-spark dataframe rdd