【发布时间】:2017-03-28 01:22:31
【问题描述】:
我使用的是 Spark 1.6.0。和 DataFrame API,用于读取分区拼花数据。
我想知道将使用多少个分区。
以下是我的一些数据:
- 2182 个文件
- 196 个分区
- 2 GB
Spark 似乎使用 2182 个分区,因为当我执行 count 时,作业被拆分为 2182 个任务。
df.rdd.partitions.length似乎证实了这一点
正确吗?在所有情况下?
如果是,数据量是否太高(即我是否应该使用df.repartition 来减少它)?
【问题讨论】:
标签: apache-spark parquet