【问题标题】:Hadoop mapreduce multipleoutputs write into a single fileHadoop mapreduce 多个输出写入单个文件
【发布时间】:2021-07-12 16:19:25
【问题描述】:

我的 MapReduce 作业使用 MultipleOutputs 将文件写入三个单独的目录。
我的减速器计数是 400,对于写入两个目录的文件是空闲的。对于第三个目录,我试图减少写入的计数器文件的数量,因为文件很小。所以 400 个小计数器文件会消耗 HDFS 中的许多块。(我不希望这种情况发生)

我想保持减少计数相同,并且只减少写入一个目录的文件。 MapReduce 是否支持类似火花合并的东西?或者多个输出可以以某种方式帮助只写入 1 或 2 个文件而不是 400 个文件?

【问题讨论】:

  • “我的 reducer 数量是 400,对于写入两个目录的文件是空闲的”这是什么意思 - 总共有 400 个 reducer,它们都是空闲的?还有什么是“计数器文件”?

标签: hadoop mapreduce multipleoutputs


【解决方案1】:

我想保持减少计数相同,并且只减少写入一个目录的文件。

每个 reducer 都写入单独的文件。如果你想减少文件的数量,你需要减少 reducer 的数量。

【讨论】:

    猜你喜欢
    • 2012-10-25
    • 1970-01-01
    • 1970-01-01
    • 2014-07-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多