【发布时间】:2019-04-09 13:35:09
【问题描述】:
我有一个非常大的 pyspark 数据框,我会计算行数,但是 count() 方法太慢了。还有其他更快的方法吗?
【问题讨论】:
-
简短的回答是否定的,但如果你缓存它会加快后续调用计数。
-
连近似的方法都没有吗?
-
试试
df.rdd.countApprox()也许
标签: apache-spark pyspark apache-spark-sql