图谱:(以wordCount为例)

DAGScheduler 源码分析
实际文字描述 RDD的包含关系
特殊点:存在一个方法会被划分在两个stage里面


重点方法
org.apach.spark.scheduler.DAGScheduler.scala

DAGSchedulerEventProcessLoog()
submitStage()
submitWatingStages()

stage之间的关系:
层层嵌套关系,最后一个stage为最底层

划分方式:
1.从finalStage倒推
2.通过宽依赖,来进行stage的划分
3.使用递归,优先提交父stage

作用:
知道你job被划分了哪些stage
知道每个stage包括了那些代码

 

待补充!!!

相关文章:

  • 2022-12-23
  • 2021-09-24
  • 2022-12-23
  • 2021-11-07
  • 2022-01-09
  • 2022-01-11
  • 2021-04-12
  • 2021-07-23
猜你喜欢
  • 2021-12-18
  • 2021-10-31
  • 2022-12-23
  • 2021-08-29
  • 2022-12-23
相关资源
相似解决方案