【问题标题】:ambari cluster + poor connection between ambari-agent to ambari serverambari 集群 + ambari-agent 与 ambari 服务器之间的连接不良
【发布时间】:2020-09-18 21:42:12
【问题描述】:

当 ambari 版本为 2.6.x 时,我们有 872 个数据节点机器的 ambari 集群

我们现在有一些网络问题,

经过长期调查,我们发现,在某些机器上运行的 ambari 代理无法与 ambari 服务器进行良好的通信

因此,我们从 ambari 仪表板中得到了一些奇怪的行为,即 5 个死数据节点,虽然数据节点机器肯定是健康的

是否有可能在 ambari 代理配置中提供更多的容忍值,以便 ambari 代理与 ambari 服务器之间的 ack 将在更短的时间后忽略网络问题?

类似 ambari 代理与 ambari 服务器之间的超时或时间连接

【问题讨论】:

  • 除了您正在寻找的此设置之外,您还有其他问题。我在 Cloudera 社区看到过类似的帖子,有人特别提到了相同数量的数据节点。 872 节点需要一些非常具体的性能调整。我建议你们练习一下您的 cloudera 支持许可证,或者联系 DFHEINZ 之类的人进行集群评估、调优和高可用性。

标签: ambari hdp


【解决方案1】:

首先,您需要了解导致数据节点显示为已死的问题的根本原因。

  1. Ambari 代理在每个节点上运行。它负责发送 指标和心跳到 Ambari 服务器,然后发布到 你的 Ambari 网络用户界面。
  2. 名称节点等待 10 分钟,直到它声明数据节点为死节点并复制 块到其他数据节点。
  3. 如果显示数据节点已死,请检查 Ambari 代理状态 通过运行-service ambari-agent status 指定节点。同时,您可以检查工作节点中的ambari-agent.log,以检查 Ambari 代理停止工作的原因。

【讨论】:

    【解决方案2】:

    你可以在ambari-agents中为服务任务配置你的http超时,http超时

    https://github.com/apache/ambari/blob/trunk/ambari-agent/conf/unix/ambari-agent.ini

    有一个 HTTP 超时部分,您可以根据您的网络吞吐量对其进行配置。

    文件应该在/etc/ambari-agent/ambari.properties

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-12-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-06-12
    相关资源
    最近更新 更多