mapreduce作业后的Hadoop查询

【问题标题】：Hadoop Quering after mapreduce jobmapreduce作业后的Hadoop查询
【发布时间】：2015-01-10 04:46:11
【问题描述】：

您好，我最近开始阅读有关 Hadoop 的信息。我有几个问题，希望你能帮助我。

假设我已经在多节点集群上运行 Map Reduce Java 作业。而且我有一个文件在不同的数据节点周围被分成了 10 个。

现在假设我已经为主文件写了一个查询-

是否从主名称节点收到执行计划？
它是否知道所有部分文件的位置？
它会从所有部分文件中获取所有数据吗？
我可以在同一个数据节点上拥有多个部分文件吗？

【问题讨论】：

【解决方案1】：

1.是否从主名称节点收到执行计划？ 不，任务由 taskrunner 安排，namenode 包含有关您的数据的元数据。即保存文件拆分部分的位置。
2. 它是否知道所有部分文件的位置？ 是的，参考第 1 点
3. 它会从所有部分文件中获取所有数据吗？ 不，您的程序将被发送到节点，数据永远不会进入程序。
4. 我可以在同一个数据节点上拥有多个部分文件吗？是的，根据可用性和空间限制，有可能但您的数据的至少一个副本不存在于同一节点中也是必要的。这样如果这个节点出现故障，我们仍然可以访问数据。

【讨论】：