【问题标题】:starting and stopping hadoop daemons/processes in a cluster在集群中启动和停止 hadoop 守护进程/进程
【发布时间】:2012-04-28 08:44:35
【问题描述】:

我有一个 9 个节点的 linux 集群,并且我安装了 hadoop 1.0.2。我有一个使用多个从站运行的 GIS 程序。我需要使用 1、2、3、4 .. 8 个从节点来测量我的程序的 speedUp。一旦我通过改变从属设备的数量在 conf/slaves 文件中进行了更改,我就使用 start-all.sh/stop-all.sh 脚本来启动/停止我的集群。 但是这样做时我遇到了奇怪的错误,感觉我没有使用正确的技术来添加/删除集群中的从节点。

任何有关“更改从属文件和重新启动集群的技术”的理想帮助将不胜感激。

【问题讨论】:

    标签: hadoop mapreduce cloudera


    【解决方案1】:

    问题可能是您不允许 Hadoop 从系统中正常删除节点。

    您要做的是decommissioning 节点,以便 HDFS 有时间在其他地方重新复制文件。该过程本质上是将一些节点添加到excludes 文件中。然后,您运行 bin/hadoop dfsadmin -refreshNodes,它会读取配置并刷新集群的节点视图。

    在添加节点时,甚至可能在删除节点时,您应该考虑运行rebalancer。这将使数据均匀分布,并有助于提高一些性能,如果新节点没有任何数据,您可能会看到。

    【讨论】: