从 Spark 读取 parquet 数据时有多少个分区答案

【问题标题】：How many partitions when reading parquet data from Spark从 Spark 读取 parquet 数据时有多少个分区
【发布时间】：2017-03-28 01:22:31
【问题描述】：

我使用的是 Spark 1.6.0。和 DataFrame API，用于读取分区拼花数据。

我想知道将使用多少个分区。

以下是我的一些数据：

Spark 似乎使用 2182 个分区，因为当我执行 count 时，作业被拆分为 2182 个任务。

df.rdd.partitions.length似乎证实了这一点

正确吗？在所有情况下？

如果是，数据量是否太高（即我是否应该使用df.repartition 来减少它）？

【问题讨论】：

【解决方案1】：

是的，您可以使用重新分区方法来减少任务数量，使其与可用资源保持平衡。您还需要定义每个节点的执行程序数量，不。提交应用程序时每个节点的节点和内存，以便任务将并行执行并利用最大资源。

【讨论】：