【发布时间】:2016-01-21 23:46:15
【问题描述】:
我已经设置了一个有 2 个工作人员的 hadoop 集群。 Spark 已安装并与纱线一起使用。我开始了
$ pyspark 或者 $火花R
并且 api 正常启动并且可以实际执行计算,但它会在大约 1 分钟后失去它的工作人员。我完全按照这个(https://cloud.google.com/solutions/monte-carlo-methods-with-hadoop-spark)遵循了说明。启动 sparkR 或 pyspark 一分钟后,我收到此错误
16/01/20 16:56:35 ERROR org.apache.spark.scheduler.cluster.YarnScheduler: Lost executor 2 on hadoopcluster-w-1
.c.hadoop-1196.internal: remote Rpc client disassociated
16/01/20 16:56:38 ERROR org.apache.spark.scheduler.cluster.YarnScheduler: Lost executor 1 on hadoopcluster-w-0.c
.hadoop-1196.internal: remote Rpc client disassociated
我已经到处寻找解决方案。我看到很多人说增加 spark.yarn.executorMemory 但这不起作用。我重新创建了一个全新的项目来复制并遇到同样的问题。了解 Spark 的人是否可以按照我上面发布的教程尝试创建集群并运行脚本并提出修复建议?谢谢!
【问题讨论】:
标签: apache-spark