【发布时间】:2020-01-26 16:07:45
【问题描述】:
我试过这个来计算累积值,但如果日期字段相同,这些值会添加到累积字段中,有人可以建议解决方案类似于this question
val windowval = (Window.partitionBy($"userID").orderBy($"lastModified")
.rangeBetween(Window.unboundedPreceding, 0))
val df_w_cumsum = ms1_userlogRewards.withColumn("totalRewards", sum($"noOfJumps").over(windowval)).orderBy($"lastModified".asc)
df_w_cumsum.filter($"batchType".isNull).filter($"userID"==="355163").select($"userID", $"noOfJumps", $"totalRewards",$"lastModified").show()
【问题讨论】:
-
这张图片是预期输出的吗?
-
不,这不是他预期的输出,只要时间戳相同,就不会求和
-
好的,您可以添加数据框而不是图像吗?这样会更容易。
-
好的,我不太明白,但我建议一个解决方案
-
已经更新了数据框,我猜你可以理解了
标签: scala apache-spark cumulative-sum