【问题标题】:SPARK number of partitions/tasks while reading a file读取文件时的 SPARK 分区/任务数
【发布时间】:2018-11-27 20:34:34
【问题描述】:

谁能告诉我这个问题的答案以及为什么/如何?

问。在 spark shell 上使用以下命令最初创建多少个分区- sc.textfile("hdfs://user/cloudera/csvfiles")

/user/cloudera/csvfiles 目录中有 100 个文件,并且有 10 nodes 运行 Spark。 一种。 1 湾。 10 C。 20 d。 100

【问题讨论】:

标签: apache-spark apache-spark-sql task partition


【解决方案1】:

Spark 为每个 HDFS 块创建分区。如果每个文件大小小于集群的块大小,它应该有 100 个分区。

你可以通过

来验证
sc.textfile("hdfs://user/cloudera/csvfiles").getNumPartitions

【讨论】:

  • 请解释一下!
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-10-04
  • 2018-01-29
  • 1970-01-01
  • 2020-08-21
  • 2016-02-06
相关资源
最近更新 更多