【问题标题】:Sort and shuffle optimization in Hadoop MapReduceHadoop MapReduce 中的排序和洗牌优化
【发布时间】:2011-02-24 00:14:13
【问题描述】:

我正在寻找一个基于 Hadoop 的研究/实施项目,我发现了发布在 wiki 页面上的列表 - http://wiki.apache.org/hadoop/ProjectSuggestions。但是,此页面最后一次更新是在 2009 年 9 月。所以,我不确定其中一些想法是否已经实施。我对“MR 框架中的排序和随机播放优化”特别感兴趣,其中谈到“在随机播放之前组合机架或节点上的几个地图的结果。这可以减少搜索工作和中间存储”。

以前有人试过吗?这是在当前版本的 Hadoop 中实现的吗?

【问题讨论】:

    标签: hadoop mapreduce


    【解决方案1】:

    有组合器功能(如http://wiki.apache.org/hadoop/HadoopMapReduce 的“组合”部分所述),它或多或少是一种内存洗牌。但我相信组合器只会聚合单个映射作业的键值对,而不是给定节点或机架的所有键值对。

    【讨论】:

      【解决方案2】:

      项目描述旨在“优化”。 这个特性已经存在于当前的 Hadoop-MapReduce 中,它可能会在更短的时间内运行。 听起来对我来说是一个有价值的增强。

      【讨论】:

        【解决方案3】:

        我认为这是一项非常具有挑战性的任务。在我的理解中,这个想法是创建一个计算树而不是“平面”map-reduce。谷歌的 Dremel 引擎(现在称为 BigQuey)就是一个很好的例子。我建议阅读这篇论文:http://sergey.melnix.com/pub/melnik_VLDB10.pdf
        如果你对这种架构感兴趣——你也可以看看这项技术的开源克隆——Open Dremel。 http://code.google.com/p/dremel/

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2015-10-05
          • 2023-04-07
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2011-02-02
          • 2012-01-08
          • 1970-01-01
          相关资源
          最近更新 更多