【问题标题】:Big Data File Processing in Map ReduceMap Reduce 中的大数据文件处理
【发布时间】:2013-10-02 03:24:53
【问题描述】:

我试图了解 Map Reduce 的一般工作原理。所以我所知道的是,有一些 Mapper 在多台计算机上并行运行并创建一个结果集,然后由在多台计算机上并行运行的 Reducers 使用该结果集来创建预期的数据集。

我的问题是:

  • 一项作业是否在固定数量的文件上运行?所以,在一开始 一个Job,有固定数量的文件需要处理到 处理并产生一些数据。

  • 如果不是,那么我们如何处理一个 可能来自不同来源的数据流 Twitter 提要等?

  • 如果是,请说明 Map Reduce 如何找到 当所有映射器都完成并且减少任务应该 开始,因为可能没有参考点。

【问题讨论】:

    标签: hadoop mapreduce bigdata


    【解决方案1】:

    答案:

    1. 是的。基本上工作开始,处理文件并结束。没有永远运行。

    2. 流处理可以由 Storm 或类似的处理 技术,但不仅仅是 Hadoop,因为它是一个批处理系统。你也可以看看Hadoop YarnStorm can work together是怎么回事。

    3. 应该是一个参考点,因为tasktracker运行在 不同节点发送正在运行的不同任务(Map 任务/Reduce 任务)的状态信息 定期发送到作业跟踪器,后者负责协调作业运行。

    【讨论】:

    • 感谢 JtheRocker :) 我将探索 Storm 和 Yarn
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-11-16
    • 1970-01-01
    • 2018-03-18
    • 1970-01-01
    • 1970-01-01
    • 2017-09-05
    • 2021-01-12
    相关资源
    最近更新 更多