【发布时间】:2014-03-04 05:26:45
【问题描述】:
我是 hadoop 新手,我有以下问题。
这是我在hadoop中理解的。
1) 在 hadoop 中写入任何文件时,它都会以块的形式存储在所有数据节点中(默认为 64MB)
2) 当我们运行 MR 作业时,将从这个块创建一个拆分,并在每个数据节点上处理拆分。
3) 从每个拆分记录读取器将用于在映射器端生成键/值对。
问题:
1) 一个数据节点可以一次处理多个拆分吗?如果数据节点容量更大呢?
我认为这是 MR1 的限制,而使用 MR2 YARN 我们可以更好地利用资源。
2) 拆分是在数据节点上以串行方式读取,还是可以并行处理以生成键/值对? [通过随机访问数据节点拆分中的磁盘位置]
3) map/reduce 架构中的“槽”术语是什么?我正在阅读其中一篇博客,它说 YARN 将在 Datanode 中提供更好的插槽利用率。
【问题讨论】:
标签: hadoop hadoop-yarn