【发布时间】:2014-03-03 19:57:22
【问题描述】:
我最近阅读了一些关于分布式系统的文章,例如 Google 的 MapReduce 和 GSF 研究论文。这两个系统都依赖于存在Master 节点的事实,该节点协调其他“工作”节点。我想知道设计师如何保护自己免受大师失败的影响?在 MapReduce 论文中我们可以阅读:
It is easy to make the master write periodic checkpoints of the master data structures described above.
If the master task dies, a new copy can be started from the last checkpointed state
我不清楚谁负责监控主故障?用户代码已经将控制权交给了分布式系统(实际上是 Master),并且只是等待结果。工作节点是否应该选举新的领导者?是否应该有一个不时 ping 主节点的休眠节点的优先级列表,如果失败,具有最高优先级 (ID) 的节点会启动?我不确定这是否有任何意义,因此我将不胜感激文章或任何更多技术答案的指针。
【问题讨论】:
标签: hadoop mapreduce distributed failover master