【发布时间】:2014-10-05 00:14:25
【问题描述】:
我阅读了一篇关于 MapReduce 的文章,但我仍然对如何将作业拆分为任务(详细)以利用并行处理感到困惑,尤其是在以下情况下: 假设经过 Map 处理后,我们有 1 亿条记录(键/值对),有 5 个键,即 'key1'、key2'、'key3'、key4'、'key5'。第一个键有 9900 万条记录,其余键各有 25 万条。 如果我们有 3 个 worker 来做 reduce 任务,那么 Master 是如何分工的呢? 我读过每个键只由一个reducer处理,所以如果reducer必须处理'key1',那么它会比其他的工作更多,并且reducer的并行处理在这种情况下没有多大帮助?
【问题讨论】:
标签: mapreduce