【发布时间】:2017-06-18 21:23:37
【问题描述】:
我正在尝试使用 spark submit 来运行脚本
spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar
此脚本正在对 60K 记录执行 DIMSUM 算法。
不幸的是,这种情况在 3 小时后仍然存在。 1K数据累了,2分钟就跑成功了。
任何人都可以建议对 spark-submit 参数进行任何更改以使其更快吗?
【问题讨论】:
-
检查 Spark Web UI 图表,也许你的并行性不好 - 然后
repartition会有所帮助
标签: scala apache-spark cosine-similarity spark-submit