【发布时间】:2018-10-02 11:32:16
【问题描述】:
有人能说说这些因素的区别吗
- 节点/机器数
- 内存
- 核心
- 设置
- 部署
- 每种模式的优势
- 应在何时使用
- 可能的例子
另外,如果我在单台笔记本电脑上本地运行 spark,那么是本地模式还是独立模式?
【问题讨论】:
标签: apache-spark deployment bigdata sparkcore
有人能说说这些因素的区别吗
另外,如果我在单台笔记本电脑上本地运行 spark,那么是本地模式还是独立模式?
【问题讨论】:
标签: apache-spark deployment bigdata sparkcore
独立和本地之间存在巨大差异。
本地 - 表示它在您的电脑上本地运行,即不分发。
独立 - 表示 spark 将处理资源管理。
独立,为此,我将向您介绍一些背景知识,以便您更好地理解它的含义。 Spark 是一个分布式应用程序,它消耗资源,即内存 cpu 等... 假设您同时运行 2 个 spark 应用程序,这可能会在分配资源时导致错误。例如,第一个作业可能会消耗所有内存,而第二个作业可能会因为他没有内存而失败。
要解决此问题,您需要使用一些资源管理器,以确保您的作业可以在没有任何资源问题的情况下运行。
Standalone,意味着 spark 将处理集群上的资源管理。还有其他资源管理工具,例如 Yarn 或 Mesos。 总的来说,您有 3 个选项来管理集群上的资源: Mesos、Yarn、独立。
我还要提到,在真正的 Hadoop 集群上,spark 并不是在您的集群上运行的唯一应用程序,这意味着它不是唯一的资源消耗者。您还可以运行 HBase、TEZ、IMPALA。 Yarn 将帮助您为所有这些应用程序分配资源。
【讨论】: