默认/在 hadoop 1.x 中查找映射器和减速器的数量答案

【问题标题】：default / finding number of mapper and reducers in hadoop 1.x默认/在 hadoop 1.x 中查找映射器和减速器的数量
【发布时间】：2015-10-17 04:03:10
【问题描述】：

有人可以帮助我理解以下与 Hadoop 1.x 相关的问题吗？

假设我只有一个节点，其中有 8 GB 的 RAM 和 40 TB 的四核处理器硬盘。块大小为 64 MB。我们需要处理 4 TB 的数据。我们如何决定 Mappers 和 Reducer 的数量？

谁能详细解释一下？如果我需要考虑任何其他参数进行计算，请告诉我。
假设我在一个集群中有 10 个数据节点，每个节点都有 8 GB 的 RAM 和 40 TB 的四核处理器硬盘。块大小为 64MB。我们需要处理 40 TB 的数据。我们如何决定 Mappers 和 Reducer 的数量？
具有四核处理器的数据节点中映射器和缩减器插槽的默认数量是多少？

非常感谢，马尼什

【问题讨论】：

标签： hadoop mapreduce

【解决方案1】：

映射器数 = 拆分数。输入文件将被分成多个部分。每个拆分都会有一组记录。平均而言，每个分割都是一个块大小（64 MB 以上）。因此，在您的情况下，您将拥有大约 62500 个映射器（或拆分器）（4TB/64）。您还可以选择提供可配置的输入拆分大小。通常这是在读取整个文件一次时完成，然后您决定应该如何处理记录。

reducer 数量 = 映射器输出中唯一键的数量。您可以通过在作业类或 jab 运行命令中配置减速器来选择减速器的数量。上述数字基于默认哈希分区器。您可以创建自己的分区器，它可以决定减速器的数量。

【讨论】：