【问题标题】:Long running spark submit job长时间运行的火花提交作业
【发布时间】:2017-06-18 21:23:37
【问题描述】:

我正在尝试使用 spark submit 来运行脚本

spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar

此脚本正在对 60K 记录执行 DIMSUM 算法。

参考:https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

不幸的是,这种情况在 3 小时后仍然存在。 1K数据累了,2分钟就跑成功了。

任何人都可以建议对 spark-submit 参数进行任何更改以使其更快吗?

【问题讨论】:

  • 检查 Spark Web UI 图表,也许你的并行性不好 - 然后repartition 会有所帮助

标签: scala apache-spark cosine-similarity spark-submit


【解决方案1】:

您的 spark-submit 声明表明您至少有 80*50=400 个内核,对吧?

这意味着您应该确保至少有 400 个分区,以确保所有核心都在工作(即每个核心至少有 1 个任务要处理)。

查看您使用的代码,我认为您应该在读取 sc.textFile() 中的文本文件时指定分区数,AFAIK 默认为 2(请参阅 SparkContext.scala 中的 defaultMinPartitions

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-03-16
    • 1970-01-01
    • 2019-08-10
    • 1970-01-01
    • 2017-12-11
    • 1970-01-01
    • 2019-03-12
    相关资源
    最近更新 更多