Hadoop MapReduce 中的排序和洗牌优化答案

【问题标题】：Sort and shuffle optimization in Hadoop MapReduceHadoop MapReduce 中的排序和洗牌优化
【发布时间】：2011-02-24 00:14:13
【问题描述】：

我正在寻找一个基于 Hadoop 的研究/实施项目，我发现了发布在 wiki 页面上的列表 - http://wiki.apache.org/hadoop/ProjectSuggestions。但是，此页面最后一次更新是在 2009 年 9 月。所以，我不确定其中一些想法是否已经实施。我对“MR 框架中的排序和随机播放优化”特别感兴趣，其中谈到“在随机播放之前组合机架或节点上的几个地图的结果。这可以减少搜索工作和中间存储”。

以前有人试过吗？这是在当前版本的 Hadoop 中实现的吗？

【问题讨论】：

标签： hadoop mapreduce

【解决方案1】：

有组合器功能（如http://wiki.apache.org/hadoop/HadoopMapReduce 的“组合”部分所述），它或多或少是一种内存洗牌。但我相信组合器只会聚合单个映射作业的键值对，而不是给定节点或机架的所有键值对。

【讨论】：

【解决方案2】：

项目描述旨在“优化”。这个特性已经存在于当前的 Hadoop-MapReduce 中，它可能会在更短的时间内运行。听起来对我来说是一个有价值的增强。

【讨论】：

【解决方案3】：

我认为这是一项非常具有挑战性的任务。在我的理解中，这个想法是创建一个计算树而不是“平面”map-reduce。谷歌的 Dremel 引擎（现在称为 BigQuey）就是一个很好的例子。我建议阅读这篇论文：http://sergey.melnix.com/pub/melnik_VLDB10.pdf
如果你对这种架构感兴趣——你也可以看看这项技术的开源克隆——Open Dremel。 http://code.google.com/p/dremel/

【讨论】：