如何：火花纱线簇答案

【问题标题】：how to : spark yarn cluster如何：火花纱线簇
【发布时间】：2014-10-23 14:45:09
【问题描述】：

我已经建立了一个有 3 台机器 1 台主机和 2 台从机的 hadoop 集群在master中我已经安装了spark

SPARK_HADOOP_VERSION=2.4.0 SPARK_YARN=true sbt/sbt clean assembly

添加 HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop spark-env.sh

 Then i ran SPARK_JAR=./assembly/target/scala-2.10/spark-assembly-1.0.0-SNAPSHOT-hadoop2.4.0.jar HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop ./bin/spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi --num-executors 3 --driver-memory 4g --executor-memory 2g --executor-cores 1 examples/target/scala-2.10/spark-examples-1.0.0-SNAPSHOT-hadoop2.4.0.jar

我检查了 localhost:8088 并看到应用程序 SparkPi 正在运行..

只是这个还是我应该在两台从机上安装 spark.. 如何启动所有机器？

那里有任何帮助文档..我觉得我错过了一些东西..

在 spark 独立模式中，我们启动 master 和 worker ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT

我还想知道在这种情况下如何让多个工作同时运行

我知道我们可以在 conf/slave 中配置从站，但任何人都可以分享一个示例

请帮助我卡住了

【问题讨论】：

我在 conf/slave 中找到了 localhost，我添加了三次 localhost，我可以看到 3 个工作人员正在运行，这是让更多工作人员运行的正确方法还是有其他方法......另外，如果我们给另一台机器的 ip 它会作为工作人员服务吗？请分享一些例子

标签： apache-spark hadoop-yarn hadoop2

【解决方案1】：

假设您使用的是 Spark 1.1.0，如文档 (http://spark.apache.org/docs/1.1.0/submitting-applications.html#master-urls) 中所述，对于 master 参数，您可以使用值 yarn-cluster或 纱线客户端。在这种情况下，您不需要使用 deploy-mode 参数。

您不必在所有 YARN 节点上安装 Spark。这就是 YARN 的用途：在 Hadoop 集群上分发您的应用程序（在本例中为 Spark）。

【讨论】：