我是否充分利用了我的 EMR 集群？答案

【问题标题】：Am I fully utilizing my EMR cluster?我是否充分利用了我的 EMR 集群？
【发布时间】：2017-06-06 18:43:14
【问题描述】：

因此，从表面上看，在我看来，我并没有使用所有节点或可用内存。

【问题讨论】：

正确调整集群规模是在向用户提供服务和服务成本之间进行权衡。为什么要像以前那样配置它（10 个节点，选择的实例类型）？您的用户是否有时会抱怨它太慢？如果您要缩小计数类型或计数，您的用户会受到负面影响吗？您是否尝试过 Spark 的标准监控工具 (Accessing the Spark Web UIs)？
是的，executors 表截图来自 EMR 上的 Spark Web UI，其他截图来自 EMR 监控窗格。此外，这个问题纯粹是关于集群内节点的利用率。在过去的一个小时里，我一直在研究启用maximizeResourceAllocation 的含义，并且提供默认值的 4 个设置完全没有被我触及，所以我的问题的答案是“否”。此外，现在似乎很清楚，如果我不手动设置这些设置并且不启用最大化资源分配，那么我的集群就像一个 2 节点集群一样被使用。

【解决方案1】：

查看集群的每个节点正在使用多少资源的另一种方法是使用Ganglia 的网络工具。

这是在主节点上发布的，并将显示每个节点的资源使用情况图表。如果您在创建集群时没有启用 Ganglia 作为 EMR 集群上可用的工具之一，则会出现问题。

启用后，您可以转到网页查看每个节点的使用量。

【讨论】：