【问题标题】:Hadoop Quering after mapreduce jobmapreduce作业后的Hadoop查询
【发布时间】:2015-01-10 04:46:11
【问题描述】:

您好,我最近开始阅读有关 Hadoop 的信息。 我有几个问题,希望你能帮助我。

假设我已经在多节点集群上运行 Map Reduce Java 作业。 而且我有一个文件在不同的数据节点周围被分成了 10 个。

现在假设我已经为主文件写了一个查询-

  1. 是否从主名称节点收到执行计划?
  2. 它是否知道所有部分文件的位置?
  3. 它会从所有部分文件中获取所有数据吗?
  4. 我可以在同一个数据节点上拥有多个部分文件吗?

【问题讨论】:

    标签: hadoop mapreduce hdfs


    【解决方案1】:

    1.是否从主名称节点收到执行计划? 不,任务由 taskrunner 安排,namenode 包含有关您的数据的元数据。即保存文件拆分部分的位置。
    2. 它是否知道所有部分文件的位置? 是的,参考第 1 点
    3. 它会从所有部分文件中获取所有数据吗? 不,您的程序将被发送到节点,数据永远不会进入程序。
    4. 我可以在同一个数据节点上拥有多个部分文件吗? 是的,根据可用性和空间限制,有可能但您的数据的至少一个副本不存在于同一节点中也是必要的。这样如果这个节点出现故障,我们仍然可以访问数据。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-08-22
      • 1970-01-01
      • 2014-07-28
      • 1970-01-01
      相关资源
      最近更新 更多