【发布时间】:2015-10-09 02:16:07
【问题描述】:
我正在尝试使用 repartition() 方法更改 RDD 的分区大小。 RDD 上的方法调用成功,但是当我使用 RDD 的 partition.size 属性显式检查分区大小时,我得到的分区数量与原来相同:-
scala> rdd.partitions.size
res56: Int = 50
scala> rdd.repartition(10)
res57: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[19] at repartition at <console>:27
在这个阶段,我执行一些类似 rdd.take(1) 的操作只是为了强制评估,以防万一。然后我再次检查分区大小:-
scala> rdd.partitions.size
res58: Int = 50
正如我们所看到的,它没有改变。有人可以回答为什么吗?
【问题讨论】:
标签: apache-spark rdd