【发布时间】:2017-04-26 20:50:31
【问题描述】:
我在三个 VM 上安装了 Service Fabric,在 Windows Server 2016 上每个 VM 有 5 个节点(每个都配置了单独的 NodeType 以避免端口冲突等)。这类似于在开发人员上运行具有 5 个节点的 OneBox Service Fabric机器。
安装过程中一切正常,所有服务都正常启动。问题是 ImageStoreService 无法完成其复制周期,其中 3 个节点之一(beta2、gamma4 和 beta0 下面)停留在 In Build 而不是完成。
服务本身报告:
Error event: SourceId='System.FM', Property='State'.
Partition is below target replica or instance count.
ImageStoreService 3 3 00000000-0000-0000-0000-000000003000
N/P RD beta2 Up 131372506454740092
N/S IB gamma4 Up 131372506515241065
N/S RD beta0 Up 131372506515241066
(Showing 3 out of 3 replicas. Total available replicas: 2.)
我已确保每个系统服务创建的共享文件夹可用并且在磁盘上有一个备份文件夹(有时卸载过程会创建孤立文件夹)。我已在所有三台服务器上禁用 Windows 防火墙以防止任何阻塞。我已经在所有三台机器上重新安装了 Windows Server 2016 并重新安装了 Service Fabric,但问题仍然存在。
更新 根据问题的 cmets,我创建了一个新配置并将其部署在 3 个 VM 上(如前所述),但每个 VM 仅运行 1 个节点。
服务再次正常启动,但 ImageStoreService 报告:
Unhealthy event: SourceId='System.FM', Property='State', HealthState='Warning', ConsiderWarningAsError=false.
Partition reconfiguration is taking longer than expected.
ImageStoreService 3 3 00000000-0000-0000-0000-000000003000
P/P RD gamma Up 131376836149092409
S/S IB alpha Up 131376836457801126
S/S IB beta Up 131376836457801127
(Showing 3 out of 3 replicas. Total available replicas: 1.)
随着时间的推移,这个Warning 变成了Error。似乎只要 ImageStore 的复制必须跨越虚拟机,它就无法完成复制。
我的问题是,以前是否有人遇到过这种情况?关于什么可能导致复制失败的任何建议?安装集群中的哪里存储了与复制事件相关的错误信息?
【问题讨论】: