【发布时间】:2015-01-10 04:46:11
【问题描述】:
您好,我最近开始阅读有关 Hadoop 的信息。 我有几个问题,希望你能帮助我。
假设我已经在多节点集群上运行 Map Reduce Java 作业。 而且我有一个文件在不同的数据节点周围被分成了 10 个。
现在假设我已经为主文件写了一个查询-
- 是否从主名称节点收到执行计划?
- 它是否知道所有部分文件的位置?
- 它会从所有部分文件中获取所有数据吗?
- 我可以在同一个数据节点上拥有多个部分文件吗?
【问题讨论】:
您好,我最近开始阅读有关 Hadoop 的信息。 我有几个问题,希望你能帮助我。
假设我已经在多节点集群上运行 Map Reduce Java 作业。 而且我有一个文件在不同的数据节点周围被分成了 10 个。
现在假设我已经为主文件写了一个查询-
【问题讨论】:
1.是否从主名称节点收到执行计划? 不,任务由 taskrunner 安排,namenode 包含有关您的数据的元数据。即保存文件拆分部分的位置。
2. 它是否知道所有部分文件的位置? 是的,参考第 1 点
3. 它会从所有部分文件中获取所有数据吗? 不,您的程序将被发送到节点,数据永远不会进入程序。
4. 我可以在同一个数据节点上拥有多个部分文件吗? 是的,根据可用性和空间限制,有可能但您的数据的至少一个副本不存在于同一节点中也是必要的。这样如果这个节点出现故障,我们仍然可以访问数据。
【讨论】: