具有 HA 功能的 Hadoop Yarn 集群上的 Apache Spark 部署答案

【问题标题】：Apache Spark deployment on Hadoop Yarn Cluster with HA Capability具有 HA 功能的 Hadoop Yarn 集群上的 Apache Spark 部署
【发布时间】：2016-10-30 10:28:24
【问题描述】：

我是大数据环境的新手，刚开始使用 Zookeeper 安装具有 HA 功能的 3 节点 Hadoop 集群 2.6。

目前一切正常，我已经在 NN1 和 NN2 上使用 zookeeper 测试了故障转移场景并且运行良好。

现在我正在考虑在我的 Hadoop Yarn 集群上安装具有 HA 功能的 Apache Spark。

谁能指导我安装步骤？我只能找到如何在独立模式下设置 Spark 并且我已成功设置。现在我想在 Yarn 集群中安装它以及 HA Capability，

我有三个节点集群（NN1、NN2、DN1），以下守护进程当前在这些服务器上运行，

Nodes running in Master NameNode (NN1)
Jps 
DataNode    
DFSZKFailoverController 
JournalNode 
ResourceManager 
NameNode    
QuorumPeerMain  
NodeManager 

Nodes running in StandBy NameNode (NN2)
Jps 
DFSZKFailoverController 
NameNode    
QuorumPeerMain  
NodeManager 
JournalNode 
DataNode    

Nodes running in DataNode (DN1)

QuorumPeerMain  
Jps 
DataNode    
JournalNode 
NodeManager

【问题讨论】：

标签： hadoop apache-spark hadoop-yarn

【解决方案1】：

您应该设置 ResourceManager HA (http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html)。 Spark 在 YARN 上运行时不会运行自己的守护进程，因此在 YARN 模式下不存在需要 HA 的 spark 部分。

【讨论】：

感谢您的快速响应，所以可以说在我的 hadoop 集群上设置了 RM 的高可用性之后，我是否应该在所有节点中进行常规 Spark 安装，如本博客所示（ backtobazics.com/big-data/…)
不，该链接描述了独立的 spark 设置。要在 YARN 上运行 spark，您只需在客户端计算机上下载 spark 并使用以下指南启动您的作业：spark.apache.org/docs/latest/running-on-yarn.html

【解决方案2】：

您可以配置 Spark Yarn 模式，在 Yarn 模式下您可以配置 Driver 和 Executors 取决于集群容量。

spark.executor.memory <value>

执行器的数量是根据你的 YARN 容器内存分配的！

【讨论】：

我已经设法为 ResourceManager 设置了 HA，但是当我尝试将 Spark 作为 Yarn-client 运行时，我遇到了一些问题。我已经发布了另一个问题stackoverflow.com/questions/36472113/spark-config-files