【发布时间】:2018-01-15 03:17:18
【问题描述】:
Spark 数据帧 1 -:
+------+-------+---------+----+---+-------+
|city |product|date |sale|exp|wastage|
+------+-------+---------+----+---+-------+
|city 1|prod 1 |9/29/2017|358 |975|193 |
|city 1|prod 2 |8/25/2017|50 |687|201 |
|city 1|prod 3 |9/9/2017 |236 |431|169 |
|city 2|prod 1 |9/28/2017|358 |975|193 |
|city 2|prod 2 |8/24/2017|50 |687|201 |
|city 3|prod 3 |9/8/2017 |236 |431|169 |
+------+-------+---------+----+---+-------+
Spark 数据帧 2 -:
+------+-------+---------+----+---+-------+
|city |product|date |sale|exp|wastage|
+------+-------+---------+----+---+-------+
|city 1|prod 1 |9/29/2017|358 |975|193 |
|city 1|prod 2 |8/25/2017|50 |687|201 |
|city 1|prod 3 |9/9/2017 |230 |430|160 |
|city 1|prod 4 |9/27/2017|350 |90 |190 |
|city 2|prod 2 |8/24/2017|50 |687|201 |
|city 3|prod 3 |9/8/2017 |236 |431|169 |
|city 3|prod 4 |9/18/2017|230 |431|169 |
+------+-------+---------+----+---+-------+
请找出适用于上述火花数据帧 1 和火花数据帧 2 的以下条件的火花数据帧,
- 已删除记录
- 新纪录
- 没有变化的记录
-
变化记录
这里的关键是“城市”、“产品”、“日期”。
我们需要不使用 Spark SQL 的解决方案。
【问题讨论】:
-
这适用于任何偶然发现此问题并需要更多信息的人。我发现
except并不总是为我提供一切,所以我创建了一个库,该库的一部分是数据集比较github.com/AbsaOSS/hermes
标签: apache-spark apache-spark-sql