【发布时间】:2017-10-06 02:15:00
【问题描述】:
我有一个 5 节点集群。我正在使用 pyspark 将 100k csv 文件加载到数据帧并执行一些 etl 操作并将输出写入 parquet 文件。 当我加载数据框时,如何将数据集均匀地划分给所有 executor os,每个 executor 处理 20k 条记录。
【问题讨论】:
-
你可以使用
repartition(5)。
标签: apache-spark pyspark cloudera hortonworks-data-platform mapr