运维问题一:ESXI同主机上部分VM网络中断,物理网卡有闪断告警

前话:本次问题较为棘手,同主机部分VM通信中断,虽有物理网卡关闭告警信息,但无硬件报错,且有较多业务受影响。

处理问题时,需要顶住多部门的压力,优先恢复重要业务,冷静处理问题。最后再做问题追踪,溯源。

运维心态:遇到问题不要慌,冷静思考下,逻辑不能乱。

一、环境介绍

  ESXI6.5

二、问题描述

    2.1、 Vmware平台物理机(2台)陆续发生3次上联业务平面网卡(万兆物理双上联,其中1块网卡)无法通信的情况,影响部份在此网卡上回源的虚拟机通信中断,

  2.2 硬件表现:VC平台有物理网卡自动关闭告警信息,但主机硬件显示正常,无硬件告警信息,主机健康状态正常,系统正常(Hypervisor),网卡连接状态正常。系统及硬件层面无异常。

   2.3、VM迁移至其他主机,VM正常访问,通信恢复

三、解决过程

1、ssh到主机,输入esxtop命令,按n显示网络界面,查看 TEAM-PNIC DNAME 下的网卡名称。确认无法通信的VM所在那个P-NIC上

 

2、 确认所有受影响的VM是否在同一个P-NIC上。(本次所有受影响VM全在同一P-NIC上)可使用命令手动关闭该物理网卡,这样VM所使用的上行链路会进行切换。

localcli network nic down -n vmnic1

待网络修复之后,您可以再使用下面的命令重启启用该网卡

localcli network nic up -n vmnic1

也可使用ESXCLI命令。

  esxcli network nic list

  esxcli  network nic down -n vmnic0

  esxcli network nic up -n vmnic0

 

3、使用命令手动切换网卡后,所有受影响的VM,恢复正常通信。

 

 

4、受影响业务恢复正常。收集日志,报修厂家CASE,查找问题原因,如下为引用“

   根据日志,结合官方KB中类似问题的结论, 确认当Intel x710/X722网卡接收到OS层应用执行特定的数据包时(已知的12种数据包中中有4种会导致此问题),x722网卡无法处理这些数据包,会尝试关闭并重置网卡,如果这些数据包在业务环境中持续存在,网卡将持续发生重置。”

5、最终处理结果为,升级网卡的驱动和固件版本,运行,观察一个月,如上问题未再出现。(后续有专门讲怎样查看网卡的驱动和固件,并结合厂家的兼容性列表进入升级)

 

四、问题总结

     优先恢复受影响的VM机器。再后续追踪,查找问题根源,彻底解决问题。


版权声明:本文为fq3758原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。