如何使用 pyspark sql 重新分区答案

【问题标题】：How to repartition equaly by using pyspark sql如何使用 pyspark sql 重新分区
【发布时间】：2019-11-07 06:29:51
【问题描述】：

我有一些 10000 行的数据。我想不按任何列平均拆分它。应该是 2000,2000,2000,2000,2000。我们应该把它写成每个 2000。

尝试合并而且我也尝试过分区。但分布不均。

final.coalesce(4).write.mode('overwrite').option("header", "true")

【问题讨论】：

【解决方案1】：

您必须使用repartition 而不是合并。 Coalesce 更快，因为它不会随机播放，但这可能会导致分区分布不均，正如您所注意到的。

final = final.repartition(5)

应该按照你给出的数字来完成这项工作。

【讨论】：