【问题标题】:How many partitions when reading parquet data from Spark从 Spark 读取 parquet 数据时有多少个分区
【发布时间】:2017-03-28 01:22:31
【问题描述】:

我使用的是 Spark 1.6.0。和 DataFrame API,用于读取分区拼花数据。

我想知道将使用多少个分区。

以下是我的一些数据:

  • 2182 个文件
  • 196 个分区
  • 2 GB

Spark 似乎使用 2182 个分区,因为当我执行 count 时,作业被拆分为 2182 个任务。

df.rdd.partitions.length似乎证实了这一点

正确吗?在所有情况下?

如果是,数据量是否太高(即我是否应该使用df.repartition 来减少它)?

【问题讨论】:

    标签: apache-spark parquet


    【解决方案1】:

    是的,您可以使用重新分区方法来减少任务数量,使其与可用资源保持平衡。您还需要定义每个节点的执行程序数量,不。提交应用程序时每个节点的节点和内存,以便任务将并行执行并利用最大资源。

    【讨论】:

      猜你喜欢
      • 2018-08-09
      • 1970-01-01
      • 2018-10-04
      • 2015-11-28
      • 2022-10-17
      • 2021-01-03
      • 2016-02-06
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多