【问题标题】:Calculating the average time between events by users with pySpark使用 pySpark 计算用户事件之间的平均时间
【发布时间】:2016-07-14 15:55:13
【问题描述】:

我有一个由“Events”、“Time”、“UserId”组成的日志文件。

+------------+----------------+---------+
|   Events   |      Time      | UserId  |
+------------+----------------+---------+
| ClickA     | 7/6/16 10:00am | userA   |
+------------+----------------+---------+
| ClickB     | 7/6/16 12:00am | userA   |
+------------+----------------+---------+

我想为每个用户计算事件之间的平均时间。你们如何解决这个问题? 在传统的编程环境中,我会检查用户的每个事件并计算事件 nn-1 之间的时间增量,并将此值添加到数组 A。然后将计算 A 中每个值的平均值。 我怎样才能用 Spark 做到这一点?

【问题讨论】:

    标签: apache-spark


    【解决方案1】:

    忽略日期解析,它看起来像是一个窗口函数的工作,然后是一个简单的聚合,所以大致你需要这样的东西:

    import org.apache.spark.sql.expressions.Window
    import org.apache.spark.sql.functions.{lag, avg}
    
    val df = Seq(
      ("ClickA", "2016-06-07 10:00:00", "UserA"),
      ("ClickB", "2016-06-07 12:00:00", "UserA")
    ).toDF("events", "time", "userid").withColumn("time", $"time".cast("timestamp"))
    
    val w = Window.partitionBy("userid").orderBy("time")
    
    // Difference between consecutive events in seconds
    val diff = $"time".cast("long") - lag($"time", 1).over(w).cast("long")
    
    df.withColumn("diff", diff).groupBy("userid").agg(avg($"diff"))
    

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-05-21
    • 1970-01-01
    • 2021-01-16
    相关资源
    最近更新 更多