【发布时间】:2021-07-10 09:40:06
【问题描述】:
我在df 中有一些每日数据,这些数据可以追溯到 2020 年 1 月 1 日。它看起来与下面类似,但每天都有很多 id1s。
| yyyy_mm_dd | id1 | id2 | cost |
|------------|-----|------|-------|
| 2020-01-01 | 23 | 7253 | 5003 |
| 2020-01-01 | 23 | 7743 | 30340 |
| 2020-01-02 | 23 | 7253 | 450 |
| 2020-01-02 | 23 | 7743 | 4500 |
| ... | ... | ... | ... |
| 2021-01-01 | 23 | 7253 | 5675 |
| 2021-01-01 | 23 | 134 | 1030 |
| 2021-01-01 | 23 | 3445 | 564 |
| 2021-01-01 | 23 | 4534 | 345 |
| ... | ... | ... | ... |
我已经这样分组并计算了总成本:
grouped_quarterly = (
df
.withColumn('year_quarter', (F.year(F.col('yyyy_mm_dd')) * 100 + F.quarter(F.col('yyyy_mm_dd'))
.groupby('id1', 'year_quarter')
.agg(
F.sum('cost').alias('cost')
)
)
然后我可以像这样成功地进行季度比较:
w = Window.partitionBy(F.col('id1'), F.expr('substring(string(year_quarter), -2)')).orderBy('year_quarter')
growth = (
grouped_quarterly
.withColumn('prev_value', F.lag(F.col('cost')).over(w))
.withColumn('diff', F.when(F.isnull(F.col('cost') - F.col('prev_value')), 0).otherwise(F.col('cost') - F.col('prev_value')))
).where(F.col('year_quarter') >= 202101)
我想将其修改为季度至今,而不是季度之间。例如,上面会将 2020 年 4 月 1 日 - 2020 年 6 月 30 日与 2020 年 4 月 1 日 - 2021 年 4 月 15 日(或 df 中的任何最大日期)进行比较。
相反,我更愿意将 2020 年 4 月 1 日 - 2020 年 4 月 15 日与 2021 年 4 月 1 日 - 2021 年 4 月 15 日进行比较。
是否可以确保在 year_quarter 内只比较相同的时期?
编辑:添加示例输出:
grouped_quarterly.where(F.col('id1') == 222).sort('year_quarter').show(10,False)
| id1 | year_quarter | cost |
|-----|--------------|-------|
| 222 | 202001 | 49428 |
| 222 | 202002 | 43292 |
| 222 | 202003 | 73928 |
| 222 | 202004 | 12028 |
| 222 | 202101 | 19382 |
| 222 | 202102 | 4282 |
growth.where(F.col('id1') == 222).sort('year_quarter').show(10,False)
| id1 | year_quarter | cost | prev_value | diff | growth |
|-----|--------------|-------|------------|--------|--------|
| 222 | 202101 | 52494 | 49428 | 3066 | 6.20 |
| 222 | 202102 | 4282 | 43292 | -39010 | -90.10 |
窗口的增长计算正在正确完成。但是,由于 202102 正在进行中,因此它与完整的 202002 进行了比较。由于两个 year_quarters 都已完成,因此 202101 的比较非常有效。
对于不完整的季度,无论如何确保窗口函数仅将 year_quarter 内的同一时期与上一年进行比较?我希望样本数据能让我的问题更清楚
【问题讨论】:
-
将 2021 年第 2 季度与 2020 年第 2 季度进行比较时,仅应考虑这两年的 4 月 1 日至 4 月 15 日的数据。但是 2/2020 与 2/2019 呢?我们应该将 2020 年 4 月 1 日至 6 月 30 日与 2019 年 4 月 1 日至 6 月 30 日进行比较,还是将 2020 年 4 月 1 日至 4 月 15 日与 2019 年 4 月 1 日至 4 月 15 日进行比较?
-
应该比较整个季度,除非它当前正在进行中。由于 2019Q2 和 2020Q2 都完成了,所以应该是 4 月 1 日 - 6 月 30 日比较。
标签: python-3.x apache-spark pyspark apache-spark-sql