【发布时间】:2017-09-22 08:44:41
【问题描述】:
经过几个阶段的惰性数据帧处理后,我需要在保存数据帧之前对其进行重新分区。但是,.repartition() 方法需要我知道分区的数量(而不是分区的大小),这取决于处理后数据的大小,这仍然是未知的。
我想我可以通过 df.memory_usage().sum() 懒惰地计算大小,但 repartition() 似乎不接受它(标量)作为参数。
有没有办法进行这种自适应(基于数据大小)的惰性重新分区?
PS。由于这是我管道中的(几乎)最后一步,我可能可以通过“手动”转换为延迟和重新分区来解决这个问题(我不需要回到数据框),但我正在寻找一种更简单的方法这样做。
PS。按分区大小重新分区也是一个非常有用的功能
【问题讨论】:
标签: dask dask-distributed