如何使用 Yarn 在 cloudera 上添加 Spark 工作节点答案

【问题标题】：How to add Spark worker nodes on cloudera with Yarn如何使用 Yarn 在 cloudera 上添加 Spark 工作节点
【发布时间】：2017-03-08 14:44:52
【问题描述】：

我们有 cloudera 5.2，用户想开始使用 Spark 的全部潜力（在分布式模式下，这样它可以利用 HDFS 的数据本地化优势），该服务已经安装并在 cloudera 管理器状态中可用（在家页面），但是当单击服务，然后单击“实例”时，它只显示历史服务器角色，而在其他节点中显示网关服务器角色。根据我对 Spark 架构的理解，您有一个主节点和工作节点（与 HDFS 数据节点一起存在），所以在 cloudera 管理器中我尝试了“添加角色实例”，但只有“网关”角色可用。如何将 Sparks 工作节点（或执行者）角色添加到拥有 HDFS 数据节点的主机？还是没有必要（我认为由于纱线，纱线负责创建执行器和应用程序主控）？主节点是什么情况？我是否需要配置任何东西以便用户可以在完全分布式模式下使用 Spark？

【问题讨论】：

标签： hadoop apache-spark cloudera-cdh cloudera-manager

【解决方案1】：

master 和 worker 角色是 Spark Standalone 服务的一部分。您可以选择 Spark 与 YARN 一起运行（其中 Master 和 Worker 节点不相关）或 Spark（独立）。

当您在 Cloudera Manager 中启动 Spark 服务而不是 Spark（独立）时，Spark 已经在使用 YARN。在 Cloudera Manager 5.2 及更高版本中，有两个独立的 Spark 服务（Spark 和 Spark (Standalone)）。 Spark 服务将 Spark 作为 YARN 应用程序运行，除了 Spark History Server 角色之外，它仅具有网关角色。

如何将 Sparks 工作节点（或执行者）角色添加到所在的主机你有 HDFS 数据节点吗？

不需要。这些主机只需要网关角色。

引用CM Documentation:

在 Cloudera Manager 中，网关角色负责将客户端配置传播到集群中的其他主机。因此，请确保将网关角色分配给集群中的主机。如果您没有网关角色，则不会部署客户端配置。

【讨论】：