【发布时间】:2015-01-23 22:44:08
【问题描述】:
我正在尝试了解 Spark 内部结构的基础知识,以及用于在本地模式下提交应用程序的 Spark 文档说 spark-submit --master 设置:
local[K] 使用 K 个工作线程在本地运行 Spark(理想情况下,将其设置为 您机器上的内核数)。
local[*] 在本地运行 Spark 与机器上的逻辑核心一样多的工作线程。
由于所有数据都存储在一台本地机器上,它不会从RDDs 上的分布式操作中受益。
当 Spark 利用多个逻辑内核时,它有什么好处以及内部发生了什么?
【问题讨论】:
标签: multithreading deployment apache-spark