【发布时间】:2016-12-09 20:11:35
【问题描述】:
找到给定 RDD 的每个分区大小的最佳方法是什么。我正在尝试调试一个倾斜的分区问题,我试过这个:
l = builder.rdd.glom().map(len).collect() # get length of each partition
print('Min Parition Size: ',min(l),'. Max Parition Size: ', max(l),'. Avg Parition Size: ', sum(l)/len(l),'. Total Partitions: ', len(l))
它适用于小型 RDD,但对于较大的 RDD,它会给出 OOM 错误。我的想法是glom() 导致这种情况发生。但无论如何,只是想知道是否有更好的方法来做到这一点?
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql spark-dataframe