【发布时间】:2016-09-01 19:48:31
【问题描述】:
如何确定数据框的大小?
现在我估计数据框的实际大小如下:
headers_size = key for key in df.first().asDict()
rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum()
total_size = headers_size + rows_size
太慢了,我正在寻找更好的方法。
【问题讨论】:
-
你必须收集RDD来确定它的大小,所以对于大数据集当然会很慢
-
我正在考虑使用 SizeEstimator 对象来估计 rdd 的样本。不幸的是,我无法在 python 中找到它。
-
我认为这可以解决您的问题。 spark.apache.org/docs/latest/…
-
我实际上正在寻找我所说的python实现。 @cricket_007
标签: python apache-spark dataframe spark-csv