【发布时间】:2016-07-14 15:55:13
【问题描述】:
我有一个由“Events”、“Time”、“UserId”组成的日志文件。
+------------+----------------+---------+
| Events | Time | UserId |
+------------+----------------+---------+
| ClickA | 7/6/16 10:00am | userA |
+------------+----------------+---------+
| ClickB | 7/6/16 12:00am | userA |
+------------+----------------+---------+
我想为每个用户计算事件之间的平均时间。你们如何解决这个问题? 在传统的编程环境中,我会检查用户的每个事件并计算事件 n 和 n-1 之间的时间增量,并将此值添加到数组 A。然后将计算 A 中每个值的平均值。 我怎样才能用 Spark 做到这一点?
【问题讨论】:
标签: apache-spark