【问题标题】:How to repartition equaly by using pyspark sql如何使用 pyspark sql 重新分区
【发布时间】:2019-11-07 06:29:51
【问题描述】:

我有一些 10000 行的数据。我想不按任何列平均拆分它。应该是 2000,2000,2000,2000,2000。我们应该把它写成每个 2000。

尝试合并 而且我也尝试过分区。但分布不均。

final.coalesce(4).write.mode('overwrite').option("header", "true")

【问题讨论】:

  • 我已经使用了重新分区并检查了..我们仍然得到不同大小的文件..你能建议我平等地得到它吗

标签: python pyspark partition


【解决方案1】:

您必须使用repartition 而不是合并。 Coalesce 更快,因为它不会随机播放,但这可能会导致分区分布不均,正如您所注意到的。

final = final.repartition(5)

应该按照你给出的数字来完成这项工作。

【讨论】:

  • 好的,但在重新分区中也分布不均
猜你喜欢
  • 2016-02-23
  • 1970-01-01
  • 2020-07-11
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-05-13
  • 1970-01-01
相关资源
最近更新 更多