【发布时间】:2011-12-20 18:12:40
【问题描述】:
这会对多阶段作业产生影响。例如,如果我们在作业的第 1 阶段按键“a”排序,在作业的第 2 阶段按键“b”排序(将第 1 阶段的输出作为标准输入),我们是否可以假设当这两个阶段完成时,记录是按“b”键排序,然后按“a”键排序?出于这个问题的目的,假设映射器和化简器不置换记录顺序。还假设reduce任务的数量是1个或更多。
请记住,答案可能会因阶段 1 的 reduce 任务数量而异。例如,如果阶段 1 的 reduce 任务数量大于 1,则键 a 将被拆分到多个文件中(尽管在每个文件的排序顺序)。但是,当只有一个 reduce 任务时,所有值都将出现在同一个文件中,这可能是稳定性的必要条件,具体取决于实现。
如果答案是肯定的,指向适当文档的链接将是最有帮助的。
谢谢,
SetJmp
【问题讨论】:
标签: sorting hadoop mergesort stable-sort