读取文件时的 SPARK 分区/任务数答案

【问题标题】：SPARK number of partitions/tasks while reading a file读取文件时的 SPARK 分区/任务数
【发布时间】：2018-11-27 20:34:34
【问题描述】：

谁能告诉我这个问题的答案以及为什么/如何？

问。在 spark shell 上使用以下命令最初创建多少个分区- sc.textfile("hdfs://user/cloudera/csvfiles")

/user/cloudera/csvfiles 目录中有 100 个文件，并且有 10 nodes 运行 Spark。一种。 1 湾。 10 C。 20 d。 100

【问题讨论】：

【解决方案1】：

Spark 为每个 HDFS 块创建分区。如果每个文件大小小于集群的块大小，它应该有 100 个分区。

你可以通过

来验证

sc.textfile("hdfs://user/cloudera/csvfiles").getNumPartitions

【讨论】：