【发布时间】:2017-05-24 13:27:22
【问题描述】:
我正在使用 spark java api,我注意到这个我无法解释的奇怪事情。如您所见
这是我的程序执行的 dag 可视化,没有其他阶段使用阶段 3 的计算,阶段 3 中的三个操作也正是阶段 2 的前 3 个操作,所以我的问题,为什么阶段 3 单独计算?我还运行了没有最后一次连接操作的程序,它给出了以下 dag,
注意这里没有像前一个那样的并行阶段。我相信由于这个无法解释的第 3 阶段,我的程序正在放慢速度。
PS:我对 spark 很陌生,这是我的第一个 stackoverflow 问题,如果离题或需要更多详细信息,请告诉我。
【问题讨论】:
-
你能显示代码吗?我可以尝试复制自己,但会感谢您提供的任何帮助。谢谢!
-
我的 猜测 是在 Web UI 中绘制 RDD 谱系图是一个问题。您可以在
join之后的 RDD 上toDebugString并将其粘贴到您的问题中吗?
标签: java apache-spark