【问题标题】:Clusters with overlapping EC2 instances具有重叠 EC2 实例的集群
【发布时间】:2017-01-14 11:49:59
【问题描述】:

我有以下具有重叠 EC2 实例的集群,例如:Yarn 集群和 Memcached 集群使用相同的实例 2、3、4;此外,每个实例都有不同的 RAM、CPU、核心大小,这可能会导致课程问题吗?还是集群可以自己做平衡?谢谢!

Spark 集群:EC2 实例 2、3、5
Yarn 集群:EC2 实例 1、2、3、4、5
Memcached 数据库集群:EC2 实例 2、3、4、6

instance 1: 512GB RAM, 2 vCPU,  2 cores  
instance 2: 1TB RAM,   8 vCPU,  4 cores    
instance 3: 2TB RAM,   6 vCPU,  6 cores    
instance 4: 256GB RAM, 2 vCPU,  2 cores  
instance 5: 2TB RAM,   16 vCPU, 4 cores    
instance 6: 4TB RAM,   4 vCPU,  8 cores 

【问题讨论】:

    标签: amazon-web-services hadoop apache-spark amazon-ec2 hadoop-yarn


    【解决方案1】:

    集群不知道这种共享;您需要为每个主机配置资源分配以避免过度使用。

    如果对于任何节点的总资源分配超过所有可用的 RAM/核心/磁盘,您就有风险(最常见的情况是,存在 spark 任务或 yarn child 无法启动的风险)。就像,例如 3 你不能为每个服务分配 1T。

    例如,在实例 3 中,您不能为每个服务分配 1T。

    附带说明,Spark 可以在 yarn 上运行,因此可以选择将其减少到两个集群。

    【讨论】:

    • 谢谢@patrungel,我能得到关于最后一句话的更多细节吗?你的意思是Spark集群和Yarn集群可以共享同一个集群机器吗?像 100% 重叠?
    • Spark 可以作为 Yarn 应用程序运行(也就是说,它可以使用 Yarn 作为其作业的资源管理器),所以我们不是在谈论重叠,而是在使用 same hadoop (mapred) 和 spark 作业的集群。在这种情况下,mapred 和 spark 作业受制于共同调度,因此您无需处理两个不相关的集群。这是一个很常见的设置,请参考spark.apache.org/docs/latest/running-on-yarn.html 将 spark 添加到现有的 Yarn 集群是一个相当简单的任务。
    猜你喜欢
    • 2019-02-24
    • 1970-01-01
    • 2016-12-29
    • 2021-12-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-01-10
    • 1970-01-01
    相关资源
    最近更新 更多