【发布时间】:2019-09-29 10:48:38
【问题描述】:
使用 Apache Spark 解决问题的最佳方法是什么?
我的数据集如下-
ID, DATE, TIME, VALUE
001,2019-01-01, 0010, 150
001,2019-01-01, 0020, 150
001,2019-01-01, 0030, 160
001,2019-01-01, 0040, 160
001,2019-01-01, 0050, 150
002,2019-01-01, 0010, 151
002,2019-01-01, 0020, 151
002,2019-01-01, 0030, 161
002,2019-01-01, 0040, 162
002,2019-01-01, 0051, 152
当每个 ID 的“VALUE”发生更改时,我需要保留这些行。
我的预期输出-
ID, DATE, TIME, VALUE
001,2019-01-01, 0010, 150
001,2019-01-01, 0030, 160
001,2019-01-01, 0050, 150
002,2019-01-01, 0010, 151
002,2019-01-01, 0030, 161
002,2019-01-01, 0040, 162
002,2019-01-01, 0051, 152
【问题讨论】:
-
聚合到id和values,根据时间选择第一个。
标签: apache-spark window-functions