Spark Local 和 Standalone 模式之间的确切区别是什么？ [复制]答案

【问题标题】：What is the exact difference between Spark Local and Standalone mode? [duplicate]Spark Local 和 Standalone 模式之间的确切区别是什么？ [复制]
【发布时间】：2018-10-02 11:32:16
【问题描述】：

有人能说说这些因素的区别吗

节点/机器数
内存
核心
设置
部署
每种模式的优势
应在何时使用
可能的例子

另外，如果我在单台笔记本电脑上本地运行 spark，那么是本地模式还是独立模式？

【问题讨论】：

标签： apache-spark deployment bigdata sparkcore

【解决方案1】：

独立和本地之间存在巨大差异。

本地 - 表示它在您的电脑上本地运行，即不分发。

独立 - 表示 spark 将处理资源管理。

独立，为此，我将向您介绍一些背景知识，以便您更好地理解它的含义。 Spark 是一个分布式应用程序，它消耗资源，即内存 cpu 等... 假设您同时运行 2 个 spark 应用程序，这可能会在分配资源时导致错误。例如，第一个作业可能会消耗所有内存，而第二个作业可能会因为他没有内存而失败。

要解决此问题，您需要使用一些资源管理器，以确保您的作业可以在没有任何资源问题的情况下运行。

Standalone，意味着 spark 将处理集群上的资源管理。还有其他资源管理工具，例如 Yarn 或 Mesos。总的来说，您有 3 个选项来管理集群上的资源： Mesos、Yarn、独立。

我还要提到，在真正的 Hadoop 集群上，spark 并不是在您的集群上运行的唯一应用程序，这意味着它不是唯一的资源消耗者。您还可以运行 HBase、TEZ、IMPALA。 Yarn 将帮助您为所有这些应用程序分配资源。

【讨论】：

最清楚的解释！谢谢！现在我的问题是，如果纱线可以处理资源，为什么我们需要在每次创建火花上下文之前手动修改火花配置？
spark 从 yarn 请求资源（他将其作为分配了 cpu/memory 的容器获取）。 spark 将根据 spark config 上的内容向 yarn 请求资源。