【发布时间】:2020-08-13 01:48:02
【问题描述】:
将一小时分成 15 分钟,为每 15 分钟的时间范围和相应的总和添加新列。
这里我使用了窗口函数:How to group by time interval in Spark SQL, 有人可以帮助如何添加 hour_part 列或除窗口函数之外的任何方法。
输入:
id,datetime,quantity
1234,2018-01-01 12:00:21,10
1234,2018-01-01 12:01:02,20
1234,2018-01-01 12:10:23,10
1234,2018-01-01 12:20:19,25
1234,2018-01-01 12:25:20,25
1234,2018-01-01 12:28:00,25
1234,2018-01-01 12:47:25,10
1234,2018-01-01 12:58:00,40
输出:
id,date,hour_part,sum
1234,2018-01-01,1,40
1234,2018-01-01,2,75
1234,2018-01-01,3,0
1234,2018-01-01,4,50
【问题讨论】:
-
1234,2018-01-01,3,0我确实调查了这个选项,作为窗口函数结果的一部分启用。
标签: scala apache-spark pyspark