【发布时间】:2014-05-22 22:11:20
【问题描述】:
正如标题所说,我有一个关于map-reduce的任务设计:
经过思考,我认为只需要将部分数据(可能是10%的数据)发送到reducer,剩下的数据就直接输出到HDFS。然后最后,我只是将这两个来自 mapper 和 reducer 的输出文件结合起来(我必须得到一个关于这个总数据的统一文件或目录)。我认为这样做可以降低此任务运行的带宽成本。
那么我的想法可以实现吗? (我知道如何直接从mapper输出到HDFS,但这需要mapper既输出到HDFS又发送数据到reducer)
【问题讨论】:
标签: hadoop