【发布时间】:2011-09-01 15:50:49
【问题描述】:
我在Hadoop平台(cloudera发行版)写了一个比较简单的map-reduce程序。除了常规的 map-reduce 任务之外,每个 Map & Reduce 都会将一些诊断信息写入标准输出。
但是,当我查看这些日志文件时,我发现 Map 任务在节点之间分布相对均匀(我有 8 个节点)。但是reduce任务标准输出日志只能在一台机器上找到。
我猜,这意味着所有 reduce 任务最终都在一台机器上执行,这是有问题且令人困惑的。
有人知道这里发生了什么吗?是配置问题吗? 我怎样才能使减少的工作也均匀分布?
【问题讨论】:
-
映射器是否在 k-v 对中生成多个键?如果碰巧这是一个键,那么将只有一个减速器。如果不是这种情况,则可能是配置问题。
标签: hadoop mapreduce load-balancing