【发布时间】:2017-03-03 10:02:32
【问题描述】:
我正在使用 AWS EMR 运行 map reduce 作业。我的输入集包含 100 万个文件,每个文件大约 15KB。由于输入文件非常小,所以这将导致大量的映射器。因此,我将 s3 块大小更改为 20KB 并使用了 5 个 r3.2xlarge 实例,但运行的并发任务数量仍然只有 30 个。在减小块大小甚至减小块大小之后,该作业现在不应该运行更多数量的并发映射器吗,每个映射器占用的内存仍然相同吗?
如何限制每个映射器的内存使用或增加并发映射器任务的数量?当前预计完成时间为 100 小时,是否将这些文件合并为较少数量的较大文件,例如 400MB 文件,是否会增加处理时间?
【问题讨论】:
标签: java hadoop mapreduce jvm amazon-emr