需要帮助了解使用 Hadoop 处理小型数据集的 MR 数据处理答案

【问题标题】：Need help in understanding MR data processing for small data sets using Hadoop需要帮助了解使用 Hadoop 处理小型数据集的 MR 数据处理
【发布时间】：2015-01-10 07:13:56
【问题描述】：

在了解使用 Hadoop 处理小型数据集的 MR 数据处理方面需要帮助。

请考虑以下假设场景：

1) Input Data to be processed : 100 MB
2) Block Size : 64 MB
3) Replication Factor : 2
4) Cluster Size : 2 (Data Node 1 and Data Node 2)

数据节点 1 中的数据将被拆分为 64MB + 36MB（总共 100MB 的输入数据）复制的数据也将在数据节点 2 中可用（64 MB + 36 MB）

问题：

请帮助了解如何处理 64 MB 和 36 MB 数据？是否将仅从 DataNode1 处理整个数据。如果 DataNode1 出现故障，DataNode2 将仅用于备份？

或

DataNode2 也会用于处理数据吗？如果需要对问题进行更多解释，请告诉我。

【问题讨论】：

标签： hadoop mapreduce

【解决方案1】：

是的，它将使用两个数据节点。因此映射器的数量将始终等于拆分的数量（除非您使用属性或驱动程序代码对其进行限制）。详情请见this。

【讨论】：

【解决方案2】：

这取决于。如果您有一个 gzip 文件作为输入，那么无论它有 2 个块，它都将完全由单个节点上的单个映射器处理。如果您在两个数据节点上运行 YARN NM，它们有足够的内存来启动 2 个映射器任务并且集群是安静的（没有其他任务正在运行），那么很可能两个映射器都将在同一个节点上启动。

【讨论】：