【问题标题】:What is the exact difference between Spark Local and Standalone mode? [duplicate]Spark Local 和 Standalone 模式之间的确切区别是什么? [复制]
【发布时间】:2018-10-02 11:32:16
【问题描述】:

有人能说说这些因素的区别吗

  • 节点/机器数
  • 内存
  • 核心
  • 设置
  • 部署
  • 每种模式的优势
  • 应在何时使用
  • 可能的例子

另外,如果我在单台笔记本电脑上本地运行 spark,那么是本地模式还是独立模式?

【问题讨论】:

    标签: apache-spark deployment bigdata sparkcore


    【解决方案1】:

    独立和本地之间存在巨大差异。

    本地 - 表示它在您的电脑上本地运行,即不分发。

    独立 - 表示 spark 将处理资源管理。

    独立,为此,我将向您介绍一些背景知识,以便您更好地理解它的含义。 Spark 是一个分布式应用程序,它消耗资源,即内存 cpu 等... 假设您同时运行 2 个 spark 应用程序,这可能会在分配资源时导致错误。例如,第一个作业可能会消耗所有内存,而第二个作业可能会因为他没有内存而失败。

    要解决此问题,您需要使用一些资源管理器,以确保您的作业可以在没有任何资源问题的情况下运行。

    Standalone,意味着 spark 将处理集群上的资源管理。还有其他资源管理工具,例如 YarnMesos。 总的来说,您有 3 个选项来管理集群上的资源: MesosYarn独立

    我还要提到,在真正的 Hadoop 集群上,spark 并不是在您的集群上运行的唯一应用程序,这意味着它不是唯一的资源消耗者。您还可以运行 HBaseTEZIMPALA。 Yarn 将帮助您为所有这些应用程序分配资源。

    【讨论】:

    • 最清楚的解释!谢谢!现在我的问题是,如果纱线可以处理资源,为什么我们需要在每次创建火花上下文之前手动修改火花配置?
    • spark 从 yarn 请求资源(他将其作为分配了 cpu/memory 的容器获取)。 spark 将根据 spark config 上的内容向 yarn 请求资源。
    猜你喜欢
    • 2021-07-21
    • 2017-02-22
    • 2011-11-22
    • 2017-12-03
    • 2016-10-12
    • 2016-10-08
    • 2016-01-19
    • 2013-03-25
    相关资源
    最近更新 更多