长时间运行的火花提交作业答案

【问题标题】：Long running spark submit job长时间运行的火花提交作业
【发布时间】：2017-06-18 21:23:37
【问题描述】：

我正在尝试使用 spark submit 来运行脚本

spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar

此脚本正在对 60K 记录执行 DIMSUM 算法。

参考：https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

不幸的是，这种情况在 3 小时后仍然存在。 1K数据累了，2分钟就跑成功了。

任何人都可以建议对 spark-submit 参数进行任何更改以使其更快吗？

【问题讨论】：

检查 Spark Web UI 图表，也许你的并行性不好 - 然后repartition 会有所帮助

标签： scala apache-spark cosine-similarity spark-submit

【解决方案1】：

您的 spark-submit 声明表明您至少有 80*50=400 个内核，对吧？

这意味着您应该确保至少有 400 个分区，以确保所有核心都在工作（即每个核心至少有 1 个任务要处理）。

查看您使用的代码，我认为您应该在读取 sc.textFile() 中的文本文件时指定分区数，AFAIK 默认为 2（请参阅 SparkContext.scala 中的 defaultMinPartitions）

【讨论】：