【发布时间】:2011-01-30 18:31:31
【问题描述】:
在您应用 MapReduce 的许多实际情况中,最终算法最终是几个 MapReduce 步骤。
即Map1 、Reduce1 、Map2 、Reduce2 等。
因此,您可以将最后一个 reduce 的输出用作下一个 map 的输入。
一旦管道成功完成,中间数据是您(通常)不想保留的数据。此外,由于这些中间数据通常是某种数据结构(如“地图”或“集合”),因此您不希望在写入和读取这些键值对时投入太多精力。
在 Hadoop 中推荐的方法是什么?
是否有一个(简单的)示例说明如何以正确的方式处理这些中间数据,包括之后的清理?
【问题讨论】:
-
使用哪个 mapreduce 框架?
-
我编辑了问题以澄清我在谈论 Hadoop。
-
我会为此推荐猪群宝石:github.com/Ganglion/swineherd best, Tobias