【问题标题】:how to : spark yarn cluster如何:火花纱线簇
【发布时间】:2014-10-23 14:45:09
【问题描述】:

我已经建立了一个有 3 台机器 1 台主机和 2 台从机的 hadoop 集群 在master中我已经安装了spark

SPARK_HADOOP_VERSION=2.4.0 SPARK_YARN=true sbt/sbt clean assembly

添加 HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop spark-env.sh

 Then i ran SPARK_JAR=./assembly/target/scala-2.10/spark-assembly-1.0.0-SNAPSHOT-hadoop2.4.0.jar HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop ./bin/spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi --num-executors 3 --driver-memory 4g --executor-memory 2g --executor-cores 1 examples/target/scala-2.10/spark-examples-1.0.0-SNAPSHOT-hadoop2.4.0.jar

我检查了 localhost:8088 并看到应用程序 SparkPi 正在运行..

只是这个还是我应该在两台从机上安装 spark.. 如何启动所有机器?

那里有任何帮助文档..我觉得我错过了一些东西..

在 spark 独立模式中,我们启动 master 和 worker ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT

我还想知道在这种情况下如何让多个工作同时运行

我知道我们可以在 conf/slave 中配置从站,但任何人都可以分享一个示例

请帮助我卡住了

【问题讨论】:

  • 我在 conf/slave 中找到了 localhost,我添加了三次 localhost,我可以看到 3 个工作人员正在运行,这是让更多工作人员运行的正确方法还是有其他方法......另外,如果我们给另一台机器的 ip 它会作为工作人员服务吗?请分享一些例子

标签: apache-spark hadoop-yarn hadoop2


【解决方案1】:

假设您使用的是 Spark 1.1.0,如文档 (http://spark.apache.org/docs/1.1.0/submitting-applications.html#master-urls) 中所述,对于 master 参数,您可以使用值 yarn-cluster纱线客户端。在这种情况下,您不需要使用 deploy-mode 参数。

您不必在所有 YARN 节点上安装 Spark。这就是 YARN 的用途:在 Hadoop 集群上分发您的应用程序(在本例中为 Spark)。

【讨论】:

    猜你喜欢
    • 2019-11-13
    • 2017-12-25
    • 1970-01-01
    • 2014-12-17
    • 2017-03-21
    • 1970-01-01
    • 2016-07-12
    • 2017-08-27
    • 2016-10-11
    相关资源
    最近更新 更多