【发布时间】:2016-04-25 22:45:26
【问题描述】:
我正在远程使用带有 8 个节点的集群的 Apache Spark 1.6。我在主节点上使用 spark-submit 提交作业,如下所示:
hastimal@hadoop-8:/usr/local/spark$ ./bin/spark-submit --class umkc.graph.SparkRdfCcCount --master yarn-cluster --num-executors 7 --executor-memory 52g --executor-cores 7 --driver-memory 52g --conf spark.default.parallelism=49 --conf spark.driver.maxResultSize=4g --conf spark.yarn.executor.memoryOverhead=4608 --conf spark.yarn.driver.memoryOverhead=4608 --conf spark.akka.frameSize=1200 --conf spark.network.timeout=300 --conf spark.io.compression.codec=lz4 --conf spark.rdd.compress=true --conf spark.eventLog.enabled=true --conf spark.eventLog.dir=hdfs://128.110.152.54:9000/SparkHistory --conf spark.broadcast.compress=true --conf spark.shuffle.spill.compress=true --conf spark.shuffle.compress=true --conf spark.shuffle.manager=sort /users/hastimal/SparkProcessing.jar /inputRDF/data-793-805.nt
一切都很好。我得到的输出没有任何错误,但是当我去查看 Spark UI 时它没有显示。在我的 Spark Scala 代码中,我是这样写的:
val conf = new SparkConf().setAppName("Spark Processing").set("spark.ui.port","4041")
在完成了包括this 和this 在内的几件事之后,我解决了与HDFS 中的权限和写入相关的问题。当我运行 spark-submit 并在 Yarn 中看到日志时,它显示如下:
16/04/25 16:34:23 INFO server.AbstractConnector: Started SelectChannelConnector@0.0.0.0:4041
16/04/25 16:34:23 INFO util.Utils: Successfully started service 'SparkUI' on port 4041.
16/04/25 16:34:23 INFO ui.SparkUI: Started SparkUI at http://128.110.152.131:4041
16/04/25 16:34:23 INFO cluster.YarnClusterScheduler: Created YarnClusterScheduler
16/04/25 16:34:24 INFO util.Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 41216.
16/04/25 16:34:24 INFO netty.NettyBlockTransferService: Server created on 41216
16/04/25 16:34:24 INFO storage.BlockManagerMaster: Trying to register BlockManager
16/04/25 16:34:24 INFO storage.BlockManagerMasterEndpoint: Registering block manager 128.110.152.131:41216 with 34.4 GB RAM, BlockManagerId(driver, 128.110.152.131, 41216)
16/04/25 16:34:24 INFO storage.BlockManagerMaster: Registered BlockManager
这意味着 Spark UI 已在 http://128.110.152.131:4041 上启动,这又是数据节点之一,当我转到该 URL 时,它显示如下所示的拒绝错误:
仅供参考:所有使用的端口并在所有机器上打开。请帮我。我想查看我的 Spark Job 的 DAG。我可以通过 Yarn UI 查看所有纱线应用程序。我可以使用端口 8088 看到如下应用程序 UI: 。我希望看到带有 DAG 的 Spark UI,就像我们在独立或使用 IntelliJ IDE 时看到的那样。
【问题讨论】:
标签: scala apache-spark hadoop-yarn hadoop2 spark-graphx