【发布时间】:2014-10-23 14:45:09
【问题描述】:
我已经建立了一个有 3 台机器 1 台主机和 2 台从机的 hadoop 集群 在master中我已经安装了spark
SPARK_HADOOP_VERSION=2.4.0 SPARK_YARN=true sbt/sbt clean assembly
添加 HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop spark-env.sh
Then i ran SPARK_JAR=./assembly/target/scala-2.10/spark-assembly-1.0.0-SNAPSHOT-hadoop2.4.0.jar HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop ./bin/spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi --num-executors 3 --driver-memory 4g --executor-memory 2g --executor-cores 1 examples/target/scala-2.10/spark-examples-1.0.0-SNAPSHOT-hadoop2.4.0.jar
我检查了 localhost:8088 并看到应用程序 SparkPi 正在运行..
只是这个还是我应该在两台从机上安装 spark.. 如何启动所有机器?
那里有任何帮助文档..我觉得我错过了一些东西..
在 spark 独立模式中,我们启动 master 和 worker ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT
我还想知道在这种情况下如何让多个工作同时运行
我知道我们可以在 conf/slave 中配置从站,但任何人都可以分享一个示例
请帮助我卡住了
【问题讨论】:
-
我在 conf/slave 中找到了 localhost,我添加了三次 localhost,我可以看到 3 个工作人员正在运行,这是让更多工作人员运行的正确方法还是有其他方法......另外,如果我们给另一台机器的 ip 它会作为工作人员服务吗?请分享一些例子
标签: apache-spark hadoop-yarn hadoop2