Pandas resample('D') 方法的 Spark/Koalas 实现答案

【问题标题】：Spark/Koalas implementation of pandas resample('D') methodPandas resample('D') 方法的 Spark/Koalas 实现
【发布时间】：2020-11-24 00:01:01
【问题描述】：

我有一个需要填充的 Spark 数据框。数据框的大小很大（> 1 亿行）。我可以使用 pandas 实现我想要的，如下所示。

new_df = df_pd.set_index('someDateColumn') \
              .groupby(['Column1', 'Column2', 'Column3']) \
              .resample('D') \
              .ffill() \
              .reset_index(['Column1', 'Column2', 'Column3'], drop=True) \
              .reset_index()

我在使用 Koalas 尝试 .resample('D') 时卡住了。有没有更好的替代方法来填充火花本机函数中的复制逻辑？原因是，我想避免使用 pandas，因为它不是分布式的，并且只在驱动程序节点上执行。

如何使用 Spark/Koalas 包实现与上述相同的功能？

【问题讨论】：

标签： python apache-spark pyspark databricks spark-koalas

【解决方案1】：

如果您正在寻找 Spark 的正向填充，请按照本教程进行操作 - here

【讨论】：