【发布时间】:2020-07-08 20:56:59
【问题描述】:
我有一个用例,有时我收到 400GB 数据,有时收到 1MB 数据。我已将分区数设置为硬编码值,比如说 300。当我收到 1MB 时,脚本会生成 300 个非常小的分区。我想避免这种情况,我想以某种方式根据大小对数据框进行分区。假设我想让每个分区的大小为 2GB。
【问题讨论】:
-
查看这篇文章 - stackoverflow.com/questions/61338374/… 如果没有帮助请告诉我..:)
-
是的,这是通过计算数据框的大小和定义的范围来解决我的问题,如果大小为 m,则创建 n 个分区。谢谢
-
有什么直接的方法吗?像 Spark 内置功能一样?
-
它的 spark 内置功能只是我们必须根据需要进行自定义。你使用什么输出格式?
-
我使用的是拼花格式
标签: apache-spark pyspark