工作小记系列1:时间跳变对于基于OpenStack的云操作系统产品的影响

    很久很久没有写技术博客了,主要原因也是忙于工作和家庭,没有专门的时间来编写。但同时也积累了很多工作笔记和思考,越发觉得需要找个地方归档下,不然就很可能散失在时间的尘埃中,怪可惜的。今天就开一个新的系列,“工作小记系列”,将一路走来的点点滴滴记录于此,为自己提醒,也希望能帮到别人。

时间跳变对于基于OpenStack的云操作系统产品的影响

这篇笔记的背景是在开发基于OpenStack开源项目的云操作系统产品时,经常会在项目中遇到时间跳变的问题,现网交付或者运维人员常常无法准确评估时间跳变对于系统的影响,因此将时间跳变对于系统的影响分为不同的节点角色类型,总结如下:

1.控制节点:

  • MQ集群发生脑裂

 影响范围:OpenStack系统自身 不影响已有虚拟机

 影响后果:云操作系统无法正常下发业务

  • keepalived集群

 影响范围:OpenStack系统自身 不影响已有虚拟机

影响后果:浮动IP无法切换或者生效 云操作系统对外服务失效

  • 数据库集群

影响范围:OpenStack系统自身 不影响已有虚拟机

影响后果:数据库集群异常 数据无法入库

  • OpenStack组件

影响范围:OpenStack系统自身 不影响已有虚拟机

影响后果:nova cinder neutron等组件内的定时任务异常,组件功能发生异常

  • Portal服务

影响范围:云操作系统自身 不影响已有虚拟机

影响后果:portal系统自身定时任务异常,无法正常提供门户服务

2.计算节点

  • OpenStack组件

影响范围:计算节点自身 不影响已有虚拟机

影响后果:nova-compute neutron-agent内部定时任务异常导致资源刷新和状态刷新上报异常,service服务状态为down。

  • 存储集群

影响范围:存储集群自身Monitor和OSD组件 影响已有虚拟机

影响后果:存储集群健康状态异常,无法正常读写数据

  • Linux系统Crontab任务

影响范围:FitOS所有节点 不影响已有虚拟机

影响后果:Crontab配置的定时任务异常无法正常执行

《时间跳变引起云操作系统异常恢复指导》大纲:

  • 1.前置检查

1.1 检查所有节点上ntp进程是否正常

1.2 检查所有节点上ntp.conf中时钟源Ip是否一致

1.3 检查时钟源Ip网络连接正常 时钟源服务正常

  • 2.控制节点恢复指导

2.1 MQ集群恢复指导

2.2 keepalived集群恢复指导

2.3 数据库集群恢复指导

2.4 OpenStack组件恢复指导

2.5 Portal组件恢复指导

  • 3.计算节点恢复指导

3.1 OpenStack组件恢复指导

  • 4.存储集群

4.1存储集群恢复指导

  • 5.Linux系统

5.1 Crontab定时任务恢复指导


版权声明:本文为sxmatch原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。