【发布时间】:2021-04-06 18:59:03
【问题描述】:
我有一个 df,它有一个日期列,还有一些列我想首先从日期列中获取最新的日期(最大(日期))。并且从那个最大日期开始,我想将 df 过滤到仅具有 最大日期前 7 天(包括最大日期)的那些行。
例如,如果最大日期是 2021-01-20。那么,过滤器应该保留日期
2021-01-20(including max date)
2021-01-19
2021-01-18
2021-01-17
2021-01-16
2021-01-15
2021-01-14
并过滤掉其余的日期。 我想根据这个日期范围过滤 enire df。 我正在使用 spark 3.0 (pyspark)
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql