【发布时间】:2013-10-18 10:04:30
【问题描述】:
在我的程序的映射阶段,我需要知道创建的映射器的总数。这将有助于我在映射的键创建过程中(我想为每个对象发出与映射器数量一样多的键值对)。
我知道设置映射器数量只是一个提示,但是获取实际映射器数量的方法是什么。 我在 Mapper 的配置方法中尝试了以下操作:
public void configure(JobConf conf) {
System.out.println("map tasks: "+conf.get("mapred.map.tasks"));
System.out.println("tipid: "+conf.get("mapred.tip.id"));
System.out.println("taskpartition: "+conf.get("mapred.task.partition"));
}
但我得到了结果:
map tasks: 1
tipid: task_local1204340194_0001_m_000000
taskpartition: 0
map tasks: 1
tipid: task_local1204340194_0001_m_000001
taskpartition: 1
这意味着(?)有两个地图任务,而不仅仅是一个,正如打印的那样(这很自然,因为我有两个小输入文件)。 map任务后面的数字不应该是2吗?
目前,我只计算输入文件夹中的文件数量,但这不是一个好的解决方案,因为文件可能大于块大小并导致多个输入拆分和映射器。有什么建议吗?
【问题讨论】:
-
wiki.apache.org/hadoop/HowManyMapsAndReduces 这取决于您的块大小和文件数。因此,如果您愿意,您实际上可以在 mapreduce 之外计算它,然后将此数字添加到作业的分布式缓存中。
-
感谢@irW 的评论!我已经有类似的东西了,但我想知道是否有类似标准 getter 的东西,而不是重新实现已经存在并且已经被调用的方法。不过,如果没有更好的解决方案,我将继续使用此解决方案。