【发布时间】:2013-07-25 23:49:29
【问题描述】:
我正在处理 hadoop 中的输入日志文件,其中密钥分布不均。这意味着减速器的值分布不均匀。例如 key1 有 1 个值,而 key2 有 1000 个值。
有什么方法可以对与同一个键关联的值进行负载平衡[我也不想修改我的键]
【问题讨论】:
-
你能从算法的角度描述你的工作吗 - 一旦你的键进入减速器,你想对它们做什么(例如,它是一个 sum / min / max / avg 计算还是类似的? - 是否可以将此计算的一部分迁移到组合器以减少映射器和缩减器之间针对倾斜键的数据流?)
标签: java hadoop mapreduce partitioning hadoop-partitioning