【发布时间】:2022-01-23 08:57:52
【问题描述】:
我见过使用partionBy 方法的databricks 示例。但建议分区为 128MB。我认为有一种方法可以尽可能接近地实现这一目标?取总大小,除以 128mb,然后按分区数而不是按维度进行分区。
对于如何实现这一点的任何建议将不胜感激。
【问题讨论】:
-
你在看这个选项吗:spark.sql.files.maxPartitionBytes?
-
据我了解 - 您从另一个数据库读取数据?你用什么 - JDBC?如果是,请说明您如何读取数据?
-
是的,用 JDBC 读入
标签: pyspark databricks