【发布时间】:2017-09-26 19:09:18
【问题描述】:
有时我会不断地对节点进行分段。它发生在具有约 40 个节点的集群中——一次只发生在一个节点上。有几次它发生在进行一些繁重的 GC 工作时。另一方面,我看到类似的繁重 GC 工作正在进行,并且没有节点被分段。我已将故障检测超时调整为大于我遇到的最大 GC 但这没有帮助 - failureDetection 超时几乎是最大 GC 的 2 倍。我怎样才能确定这是否真的是 GC 或网络问题? 我怀疑它与网络有关,因为其他节点也会失败。当进程重新启动时,它工作正常,所以我会排除网络问题。 我在哪里可以查看生成 EVT_NODE_SEGMENTED 的代码? 我调试了 IgniteConfiguration 对象,发现 segResolvers 为空/空,所以我不知道它发布的事件在哪里。
使用了基于 S3 的发现,这里不确定它是否重要(点燃 1.9)。
我想知道在什么条件下会产生这样的事件?无法连接到大多数其他节点或所有节点?
【问题讨论】:
-
您是否配置了任何其他超时?我的意思是 networkTimeout、connectTimeout 等。此外,查看所有节点的配置和日志会很有帮助。
-
我只配置了 failureDetectionTimeout 和 slowClientQueueLimit。我有时会看到与 socketWriteTimeout 相关的警告 - 发生了超时,我可能应该增加它。
-
所有其他节点日志包含特定节点失败的条目。
[disco-event-worker-#28%null%] WARN o.a.i.i.m.d.GridDiscoveryManager - Node FAILED: TcpDiscoveryNode [id=6d74ee33-0068-4e4f-8e67-b8f2a8bca05b, addrs=[0:0:0:0:0:0:0:1%lo, 10.50.9.176, 127.0.0.1], sockAddrs=[/0:0:0:0:0:0:0:1%lo:47500, /127.0.0.1:47500, ip-10-50-9-176.ec2.internal/10.50.9.176:47500], discPort=47500, order=74, intOrder=57, lastExchangeTime=1506065144854, loc=false, ver=1.9.0#20170302-sha1:a8169d0a, isClient=false] -
在死掉的节点上我可以找到
[tcp-disco-msg-worker-#2%null%] WARN o.a.i.s.d.tcp.TcpDiscoverySpi - Node is out of topology (probably, due to short-time network problems).
标签: ignite