【发布时间】:2020-11-24 00:01:01
【问题描述】:
我有一个需要填充的 Spark 数据框。数据框的大小很大(> 1 亿行)。我可以使用 pandas 实现我想要的,如下所示。
new_df = df_pd.set_index('someDateColumn') \
.groupby(['Column1', 'Column2', 'Column3']) \
.resample('D') \
.ffill() \
.reset_index(['Column1', 'Column2', 'Column3'], drop=True) \
.reset_index()
我在使用 Koalas 尝试 .resample('D') 时卡住了。有没有更好的替代方法来填充火花本机函数中的复制逻辑?原因是,我想避免使用 pandas,因为它不是分布式的,并且只在驱动程序节点上执行。
如何使用 Spark/Koalas 包实现与上述相同的功能?
【问题讨论】:
标签: python apache-spark pyspark databricks spark-koalas