在集群中启动和停止 hadoop 守护进程/进程

【问题标题】：starting and stopping hadoop daemons/processes in a cluster在集群中启动和停止 hadoop 守护进程/进程
【发布时间】：2012-04-28 08:44:35
【问题描述】：

我有一个 9 个节点的 linux 集群，并且我安装了 hadoop 1.0.2。我有一个使用多个从站运行的 GIS 程序。我需要使用 1、2、3、4 .. 8 个从节点来测量我的程序的 speedUp。一旦我通过改变从属设备的数量在 conf/slaves 文件中进行了更改，我就使用 start-all.sh/stop-all.sh 脚本来启动/停止我的集群。但是这样做时我遇到了奇怪的错误，感觉我没有使用正确的技术来添加/删除集群中的从节点。

任何有关“更改从属文件和重新启动集群的技术”的理想帮助将不胜感激。

【问题讨论】：

标签： hadoop mapreduce cloudera

【解决方案1】：

问题可能是您不允许 Hadoop 从系统中正常删除节点。

您要做的是decommissioning 节点，以便 HDFS 有时间在其他地方重新复制文件。该过程本质上是将一些节点添加到excludes 文件中。然后，您运行 bin/hadoop dfsadmin -refreshNodes，它会读取配置并刷新集群的节点视图。

在添加节点时，甚至可能在删除节点时，您应该考虑运行rebalancer。这将使数据均匀分布，并有助于提高一些性能，如果新节点没有任何数据，您可能会看到。

【讨论】：