【发布时间】:2017-11-08 07:29:39
【问题描述】:
我有一个包含多行的 RDD,如下所示。
val row = [(String, String), (String, String, String)]
该值是一个元组序列。在元组中,最后一个字符串是时间戳,第二个是类别。我想根据每个类别的最大时间戳过滤这个序列。
(A,B) Id Category Timestamp
-------------------------------------------------------
(123,abc) 1 A 2016-07-22 21:22:59+0000
(234,bcd) 2 B 2016-07-20 21:21:20+0000
(123,abc) 1 A 2017-07-09 21:22:59+0000
(345,cde) 4 C 2016-07-05 09:22:30+0000
(456,def) 5 D 2016-07-21 07:32:06+0000
(234,bcd) 2 B 2015-07-20 21:21:20+0000
我希望每个类别都有一行。我正在寻求有关获取每个类别的最大时间戳行的帮助。我希望得到的结果是
(A,B) Id Category Timestamp
-------------------------------------------------------
(234,bcd) 2 B 2016-07-20 21:21:20+0000
(123,abc) 1 A 2017-07-09 21:22:59+0000
(345,cde) 4 C 2016-07-05 09:22:30+0000
(456,def) 5 D 2016-07-21 07:32:06+0000
【问题讨论】:
标签: scala apache-spark