客户反馈无法创建虚拟机(openstack版本为Juno),登录控制节点,发现nova 和cinder服务有为down的,检查down节点的nova和cinder日志,未发现任何日志信息显示error,且日志显示nova和cinder都在正常更新状态,创建虚拟机的请求,nova-schedule未做任何调度,创建的虚拟机状态直接变为error。

       多检查几次nova和cinder服务,发现很多节点的服务状态一直在down和up之间跳动。

      1 node-1上面的nova服务全部为down的,其他节点nova服务基本正常

时间不同步导致的nova,cinder服务一会up一会down的来回跳跃


    2  10秒左右之后再次执行,发现node-1上面的nova服务全部up了,但是其他节点nova服务又全部down了

  时间不同步导致的nova,cinder服务一会up一会down的来回跳跃


    3 node-1上面的cinder服务全部为up,其他节点down

时间不同步导致的nova,cinder服务一会up一会down的来回跳跃


    4  10秒左右,node-1的cinder服务又全部为down,其他节点cinder服务正常

时间不同步导致的nova,cinder服务一会up一会down的来回跳跃


    5 开始怀疑是否是rabbitmq脑裂造成的,检查rabbimq发现正常,也无消息阻塞。

  时间不同步导致的nova,cinder服务一会up一会down的来回跳跃


        6 检查时间服务,发现各节点时间不同步,时间差比较大(部署完毕后,ntp.conf里面配置的是各节点会向部署节点做时间同步,如果关闭部署节点会修改配置,一段时间后会造成各节点时间差很大)。

时间不同步导致的nova,cinder服务一会up一会down的来回跳跃

    

        7 修改ntp配置,调整向node-1做时间同步,之后发现各服务正常,虚拟机正常创建。

时间不同步导致的nova,cinder服务一会up一会down的来回跳跃

  


      结论:本次事故,是实施完毕后未修改相关配置优化埋下的坑。运维事无大小,生产环境,必须有严格的时间同步,否则极有可能哪天就炸了。


相关文章:

  • 2021-05-17
  • 2021-12-04
  • 2022-12-23
  • 2022-02-08
  • 2022-12-23
  • 2022-12-23
  • 2021-10-20
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2021-08-27
  • 2021-11-17
  • 2021-06-04
  • 2022-01-04
  • 2021-10-25
相关资源
相似解决方案