【问题标题】:Mesos-master: Shutdown failed on fd=25: Transport endpoint is not connected [107]Mesos-master:在 fd=25 上关闭失败:传输端点未连接 [107]
【发布时间】:2016-01-13 21:56:47
【问题描述】:

当我以 QUORUM=2 运行 3 个 mesos-master 时,它们在被选为领导者后 1 分钟失败,出现错误:

E1015 11:50:35.539562 19150 socket.hpp:174] Shutdown failed on fd=25: Transport endpoint is not connected [107]

E1015 11:50:35.539897 19150 socket.hpp:174] Shutdown failed on fd=24: Transport endpoint is not connected [107]

他们不断在循环中相互选举,不断失败并重新选举。

如果我设置 QUORUM=1,一切正常。这可能是什么原因?

【问题讨论】:

  • 你是给mesos邮件列表发邮件的吗?已经解决了吗?
  • 是的,就是我。一个问题是防火墙阻止了访问服务器的公共 IP,而 zookeeper 正在广播公共 IP(在 Advertisement_ip 中设置),因此没有人能够相互连接。从站也无法连接到主站,出现同样的错误。当我删除防火墙规则并将本地IP设置为advertise_ip时,从属可以连接。但尚未尝试 QUORUM=2。
  • 听起来不错,如果您最终能解决问题或遇到新问题,也请发送到邮件列表。以便其他人也可以从您的案例中学习。谢谢你。 :-)
  • 很高兴听到 :) 我肯定会在邮件列表中发布更新。希望我能找到一些解决方案。谢谢!
  • 我也有同样的问题。这不是一个好主意,但是当我在/etc/hosts 中添加其他节点的 IP 时,一切正常。

标签: apache-zookeeper mesos mesosphere


【解决方案1】:

一个问题是 AWS 防火墙阻止访问服务器的公共 IP,而 zookeeper 正在广播公共 IP(在 Advertisement_ip 中设置),因此没有人能够相互连接。从站也无法连接到主站,出现同样的错误。

当我将本地 IP 设置为 Advertisement_ip(以便 Zookeeper 广播本地 IP)时,master 可以通信并且 QUORUM=2 工作。当我删除防火墙规则后,slave 可以连接到 master。

【讨论】:

    【解决方案2】:

    昨天我们遇到了类似的问题,马拉松有点奇怪,因为一些应用程序没有部署。奇怪的是应用程序启动了,但健康检查从未变为绿色,因此 nixy 没有更新 nginx。

    经过大量调查,我们遇到了同样的错误:

    E0718 18:51:05.836688  5049 socket.hpp:107] Shutdown failed on fd=46: Transport endpoint is not connected [107]
    

    最后我们发现问题出在选举中,即使我们的 QUORUM=1(我们有 2 个 master)不知何故它失去了自己,一个 master 没有与另一个 master 通信。

    为了解决这个问题,我们使用 Marathon API /v2/leader DELETE 方法触发了新的选举,之后一切正常。

    【讨论】:

      【解决方案3】:

      我们遇到了同样的问题,mesos-master 日志中充斥着如下消息:

      mesos-master[27499]: E0616 14:29:39.310302 27523 socket.hpp:174] fd=67 关闭失败:传输端点未连接 [107]

      原来是负载均衡器对 /stats.json 的健康检查

      【讨论】:

        猜你喜欢
        • 2020-02-11
        • 2015-10-29
        • 2015-06-23
        • 2023-03-20
        • 1970-01-01
        • 2019-07-28
        • 1970-01-01
        • 2018-11-06
        相关资源
        最近更新 更多