“getNumPartitions”是一项昂贵的操作吗？答案

【问题标题】：Is "getNumPartitions" an expensive operation?“getNumPartitions”是一项昂贵的操作吗？
【发布时间】：2017-05-14 22:08:19
【问题描述】：

我正在使用pyspark，我打电话给getNumPartitions() 看看我是否需要repartition，这大大减慢了我的代码速度。代码太大，无法在此处发布。我的代码是这样工作的：

我有一个for 循环，该循环遍历一系列将应用于DataFrame 的函数
显然这些是延迟应用的，因此直到 for 循环结束时才会应用它们。
其中许多是withColumn 函数，或pivot 函数，如下所示：https://databricks.com/blog/2016/02/09/reshaping-data-with-pivot-in-apache-spark.html
在每次迭代中，我都会通过getNumPartitions() 打印出分区数

我的印象是这不是一项昂贵的手术……我是不是理解错了，它真的很贵吗？或者是其他什么东西减慢了我的代码？

【问题讨论】：

【解决方案1】：

查看getNumPartitions()的来源...

def getNumPartitions(self): 
    return self._jrdd.partitions().size()

它不应该那么贵。我怀疑还有其他原因导致您的速度变慢。

以下是我所知道的：

【讨论】：