根据 Spark 读取的文件大小选择分区数

【问题标题】：Select number of Partitions on basis of size of File Read by Spark根据 Spark 读取的文件大小选择分区数
【发布时间】：2020-07-08 20:56:59
【问题描述】：

我有一个用例，有时我收到 400GB 数据，有时收到 1MB 数据。我已将分区数设置为硬编码值，比如说 300。当我收到 1MB 时，脚本会生成 300 个非常小的分区。我想避免这种情况，我想以某种方式根据大小对数据框进行分区。假设我想让每个分区的大小为 2GB。

【问题讨论】：

【解决方案1】：

使用-

spark.sessionState.executePlan(df.queryExecution.logical).optimizedPlan.stats.sizeInBytes

获取输入大小。然后您可以将其转换为 GB 并通过将其划分为单个分区大小（如 2 GB）来计算分区数

请参考我的答案以获得其他方法来获取输入大小 - https://stackoverflow.com/a/62463009/4758823

【讨论】：

AttributeError: 'SparkSession' 对象没有属性 'sessionState'
spark.sessionState... 上面的行是用于 scala 和 pyspark 版本的，您可能需要使用它 - spark._jsparkSession.sessionState().executePlan(df._jdf.queryExecution().logical()).optimizedPlan().stats().sizeInBytes() 并查看 spark 版本.. 这对于所有 spark 版本可能不一样..
是的，这对我有用，谢谢 Srinivas 和 Someshwar Kale