【发布时间】:2015-01-10 07:13:56
【问题描述】:
在了解使用 Hadoop 处理小型数据集的 MR 数据处理方面需要帮助。
请考虑以下假设场景:
1) Input Data to be processed : 100 MB
2) Block Size : 64 MB
3) Replication Factor : 2
4) Cluster Size : 2 (Data Node 1 and Data Node 2)
数据节点 1 中的数据将被拆分为 64MB + 36MB(总共 100MB 的输入数据) 复制的数据也将在数据节点 2 中可用(64 MB + 36 MB)
问题:
请帮助了解如何处理 64 MB 和 36 MB 数据? 是否将仅从 DataNode1 处理整个数据。如果 DataNode1 出现故障,DataNode2 将仅用于备份?
或
DataNode2 也会用于处理数据吗? 如果需要对问题进行更多解释,请告诉我。
【问题讨论】: