【问题标题】:How to add Spark worker nodes on cloudera with Yarn如何使用 Yarn 在 cloudera 上添加 Spark 工作节点
【发布时间】:2017-03-08 14:44:52
【问题描述】:

我们有 cloudera 5.2,用户想开始使用 Spark 的全部潜力(在分布式模式下,这样它可以利用 HDFS 的数据本地化优势),该服务已经安装并在 cloudera 管理器状态中可用(在家页面),但是当单击服务,然后单击“实例”时,它只显示历史服务器角色,而在其他节点中显示网关服务器角色。根据我对 Spark 架构的理解,您有一个主节点和工作节点(与 HDFS 数据节点一起存在),所以在 cloudera 管理器中我尝试了“添加角色实例”,但只有“网关”角色可用。如何将 Sparks 工作节点(或执行者)角色添加到拥有 HDFS 数据节点的主机?还是没有必要(我认为由于纱线,纱线负责创建执行器和应用程序主控)?主节点是什么情况?我是否需要配置任何东西以便用户可以在完全分布式模式下使用 Spark?

【问题讨论】:

    标签: hadoop apache-spark cloudera-cdh cloudera-manager


    【解决方案1】:

    master 和 worker 角色是 Spark Standalone 服务的一部分。您可以选择 Spark 与 YARN 一起运行(其中 Master 和 Worker 节点不相关)或 Spark(独立)。

    当您在 Cloudera Manager 中启动 Spark 服务而不是 Spark(独立)时,Spark 已经在使用 YARN。在 Cloudera Manager 5.2 及更高版本中,有两个独立的 Spark 服务(Spark 和 Spark (Standalone))。 Spark 服务将 Spark 作为 YARN 应用程序运行,除了 Spark History Server 角色之外,它仅具有网关角色。

    如何将 Sparks 工作节点(或执行者)角色添加到所在的主机 你有 HDFS 数据节点吗?

    不需要。这些主机只需要网关角色。

    引用CM Documentation:

    在 Cloudera Manager 中,网关角色负责将客户端配置传播到集群中的其他主机。因此,请确保将网关角色分配给集群中的主机。如果您没有网关角色,则不会部署客户端配置。

    【讨论】:

      猜你喜欢
      • 2017-05-02
      • 2015-07-31
      • 1970-01-01
      • 1970-01-01
      • 2016-11-03
      • 2019-01-28
      • 2017-05-26
      • 2016-12-25
      • 1970-01-01
      相关资源
      最近更新 更多