【发布时间】:2021-07-12 16:19:25
【问题描述】:
我的 MapReduce 作业使用 MultipleOutputs 将文件写入三个单独的目录。
我的减速器计数是 400,对于写入两个目录的文件是空闲的。对于第三个目录,我试图减少写入的计数器文件的数量,因为文件很小。所以 400 个小计数器文件会消耗 HDFS 中的许多块。(我不希望这种情况发生)
我想保持减少计数相同,并且只减少写入一个目录的文件。 MapReduce 是否支持类似火花合并的东西?或者多个输出可以以某种方式帮助只写入 1 或 2 个文件而不是 400 个文件?
【问题讨论】:
-
“我的 reducer 数量是 400,对于写入两个目录的文件是空闲的”这是什么意思 - 总共有 400 个 reducer,它们都是空闲的?还有什么是“计数器文件”?
标签: hadoop mapreduce multipleoutputs