【发布时间】:2019-04-10 14:57:56
【问题描述】:
我的 DataDrame 是这样的:
+-------+---------+
|email |timestamp|
+-------+---------+
|x@y.com| 1|
|y@m.net| 2|
|z@c.org| 3|
|x@y.com| 4|
|y@m.net| 5|
| .. | ..|
+-------+---------+
对于每封电子邮件,我都想保留最新记录,因此结果将是:
+-------+---------+
|email |timestamp|
+-------+---------+
|x@y.com| 4|
|y@m.net| 5|
|z@c.org| 3|
| .. | ..|
+-------+---------+
我该怎么做?我是 spark 和 dataframe 的新手。
【问题讨论】:
标签: apache-spark-sql