【问题标题】:hadoop chain map/reducehadoop 链映射/减少
【发布时间】:2011-03-23 18:00:11
【问题描述】:

我已经链接了 2 个映射器和 1 个减速器。是否可以将中间输出(链中每个映射器的 o/p)写入 HDFS?我尝试为每个设置 OutputPath,但它似乎不起作用。现在,我不确定它是否可以完成。有什么建议吗?

【问题讨论】:

    标签: hadoop mapreduce chaining


    【解决方案1】:

    结果总是作为 SequenceFile 写入 HDFS。但是,如果您使用的是减速器,这些家伙只是临时文件,它们会在作业完成后被删除。如果您需要地图输出,则必须链接两个作业。一个没有减速器的工作,一个有减速器的工作。或者,如果您在从地图任务中写入 hdfs 文件方面有一点技巧,这也是可能的。
    第一种方法是非编码的,但第二种方法是。这取决于你!

    【讨论】:

    • 谢谢托马斯。第一种方法不需要ChainMapper,对吧?它只有 2 个独立的工作?
    • 是的,你是对的,检查你的配置,第一个作业的减速器数量设置为零
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-05-29
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多