【发布时间】:2013-10-02 03:24:53
【问题描述】:
我试图了解 Map Reduce 的一般工作原理。所以我所知道的是,有一些 Mapper 在多台计算机上并行运行并创建一个结果集,然后由在多台计算机上并行运行的 Reducers 使用该结果集来创建预期的数据集。
我的问题是:
一项作业是否在固定数量的文件上运行?所以,在一开始 一个Job,有固定数量的文件需要处理到 处理并产生一些数据。
如果不是,那么我们如何处理一个 可能来自不同来源的数据流 Twitter 提要等?
如果是,请说明 Map Reduce 如何找到 当所有映射器都完成并且减少任务应该 开始,因为可能没有参考点。
【问题讨论】: