【问题标题】:Need help in understanding MR data processing for small data sets using Hadoop需要帮助了解使用 Hadoop 处理小型数据集的 MR 数据处理
【发布时间】:2015-01-10 07:13:56
【问题描述】:

在了解使用 Hadoop 处理小型数据集的 MR 数据处理方面需要帮助。

请考虑以下假设场景:

1) Input Data to be processed : 100 MB
2) Block Size : 64 MB
3) Replication Factor : 2
4) Cluster Size : 2 (Data Node 1 and Data Node 2)

数据节点 1 中的数据将被拆分为 64MB + 36MB(总共 100MB 的输入数据) 复制的数据也将在数据节点 2 中可用(64 MB + 36 MB)

问题:

请帮助了解如何处理 64 MB 和 36 MB 数据? 是否将仅从 DataNode1 处理整个数据。如果 DataNode1 出现故障,DataNode2 将仅用于备份?

DataNode2 也会用于处理数据吗? 如果需要对问题进行更多解释,请告诉我。

【问题讨论】:

    标签: hadoop mapreduce


    【解决方案1】:

    是的,它将使用两个数据节点。因此映射器的数量将始终等于拆分的数量(除非您使用属性或驱动程序代码对其进行限制)。详情请见this

    【讨论】:

      【解决方案2】:

      这取决于。如果您有一个 gzip 文件作为输入,那么无论它有 2 个块,它都将完全由单个节点上的单个映射器处理。如果您在两个数据节点上运行 YARN NM,它们有足够的内存来启动 2 个映射器任务并且集群是安静的(没有其他任务正在运行),那么很可能两个映射器都将在同一个节点上启动。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2021-08-01
        • 2016-02-05
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多