【发布时间】:2011-04-07 03:59:26
【问题描述】:
我正在阅读有关 MapReduce 的内容,但以下内容让我感到困惑。
假设我们有一个包含 100 万个条目(整数)的文件,我们想使用 MapReduce 对它们进行排序。我理解的方法如下:
编写一个对整数进行排序的映射器函数。因此框架会将输入文件分成多个块,并将它们提供给不同的映射器。每个映射器将彼此独立地对其数据块进行排序。一旦所有的映射器都完成了,我们会将它们的每个结果传递给 Reducer,它会将结果合并并给我最终的输出。
我的疑问是,如果我们有一个 reducer,那么它如何利用分布式框架,如果最终我们必须在一个地方组合结果?问题深入到在一个地方合并 100 万个条目。是这样还是我错过了什么?
谢谢, 钱德
【问题讨论】: