【发布时间】:2013-05-13 10:07:30
【问题描述】:
我正在运行 hadoop,并且集群中有 2 台配置相同的服务器。它们运行相同的任务、相同的配置、相同的一切,并且都完全专用于 hadoop 任务节点(worker)。
我在这个集群中运行的作业是高度 IO 绑定的。
在一台服务器上,我看到IO 中的60-100MB/sec 和5-10 中的CPU load,在另一台服务器上,我看到IO 中的40-60MB/sec 和CPU load of 60-90(并且该框几乎无法使用甚至运行一个简单的shell)。
我已经运行 smartctl 并且没有收到任何磁盘警告。
关于我接下来可以做什么来确定这些框之间的根本差异有什么建议吗?这些结果在处理数小时后一直保持一致。
【问题讨论】:
-
看看 iostat 的输出,它会帮助你判断这是否是由特定磁盘引起的..