【发布时间】:2016-10-31 11:24:19
【问题描述】:
我有以下数据框df:
User | Datetime | amount | length
A | 2016-01-01 12:01 | 10 | 20
A | 2016-01-01 12:03 | 6 | 10
A | 2016-01-01 12:05 | 1 | 3
A | 2016-01-01 12:06 | 3 | 5
B | 2016-01-01 12:01 | 10 | 20
B | 2016-01-01 12:02 | 8 | 20
我想有效地使用 pyspark 来聚合超过 5 分钟的时间窗口并进行一些计算 - 例如,计算每 5 分钟时间窗口每次使用的平均数量和长度 - df 将如下所示:
User | Datetime | amount | length
A | 2016-01-01 12:00 | 8 | 15
B | 2016-01-01 12:00 | 2 | 4
A | 2016-01-01 12:05 | 9 | 20
我怎样才能以最有效的方式实现这一目标? 在我使用的熊猫中:
df.groupby(['cs_username', pd.TimeGrouper('5Min')].apply(...)
【问题讨论】:
标签: python pandas pyspark pyspark-sql