【发布时间】:2019-12-20 18:11:06
【问题描述】:
我的 Spark 作业包含有偏差的数据。数据需要基于列进行分区。我想告诉 spark 先开始处理最大的分区,以便更有效地使用可用资源。
推理如下:我总共有 10000 个分区,其中 9999 个分区只需要 1 分钟处理,1 个分区需要 10 分钟处理。如果我先得到沉重的分区,我可以在 11 分钟内完成这项工作,如果最后得到它则需要 18 分钟。
有没有办法确定分区的优先级?这对你有意义吗?
【问题讨论】:
标签: apache-spark pyspark distribution partitioning