【发布时间】:2014-09-08 01:33:00
【问题描述】:
我已经设置并运行了一个四节点 YARN 集群。由于一个较小的问题,我最近不得不格式化名称节点。
后来我运行了 Hadoop 的 PI 示例来验证每个节点仍然参与计算,他们都这样做了。但是,当我开始自己的工作时,其中一个节点根本没有被使用。
我想这可能是因为这个节点没有任何数据可以处理。所以我尝试使用平衡器来平衡集群。这不起作用,平衡器告诉我集群是平衡的。
我错过了什么?
【问题讨论】:
-
您的 HDFS 复制因子是多少?为什么你认为集群中的所有节点都必须用于作业?
-
复制因子为 3;因为这会加快 CPU 繁重的计算?
-
如果集群大小为 4 且复制因子为 3,那么第 4 个节点如何拥有输入的数据块(以运行任务)?
-
因为 HDFS 不需要将所有复制放在同一个节点组合上,还是我在这里弄错了?我在节点 A、B、C 上映像 file1;节点 B、C、D 上的文件 2... 然后每个节点都有工作要做?
标签: hadoop hadoop-yarn