前话:本次问题较为棘手,同主机部分VM通信中断,虽有物理网卡关闭告警信息,但无硬件报错,且有较多业务受影响。
处理问题时,需要顶住多部门的压力,优先恢复重要业务,冷静处理问题。最后再做问题追踪,溯源。
运维心态:遇到问题不要慌,冷静思考下,逻辑不能乱。
一、环境介绍
ESXI6.5
二、问题描述
2.1、 Vmware平台物理机(2台)陆续发生3次上联业务平面网卡(万兆物理双上联,其中1块网卡)无法通信的情况,影响部份在此网卡上回源的虚拟机通信中断,
2.2 硬件表现:VC平台有物理网卡自动关闭告警信息,但主机硬件显示正常,无硬件告警信息,主机健康状态正常,系统正常(Hypervisor),网卡连接状态正常。系统及硬件层面无异常。
2.3、VM迁移至其他主机,VM正常访问,通信恢复
三、解决过程
1、ssh到主机,输入esxtop命令,按n显示网络界面,查看 TEAM-PNIC DNAME 下的网卡名称。确认无法通信的VM所在那个P-NIC上
2、 确认所有受影响的VM是否在同一个P-NIC上。(本次所有受影响VM全在同一P-NIC上)可使用命令手动关闭该物理网卡,这样VM所使用的上行链路会进行切换。
localcli network nic down -n vmnic1
待网络修复之后,您可以再使用下面的命令重启启用该网卡
localcli network nic up -n vmnic1
也可使用ESXCLI命令。
esxcli network nic list
esxcli network nic down -n vmnic0
esxcli network nic up -n vmnic0
3、使用命令手动切换网卡后,所有受影响的VM,恢复正常通信。
4、受影响业务恢复正常。收集日志,报修厂家CASE,查找问题原因,如下为引用“
根据日志,结合官方KB中类似问题的结论, 确认当Intel x710/X722网卡接收到OS层应用执行特定的数据包时(已知的12种数据包中中有4种会导致此问题),x722网卡无法处理这些数据包,会尝试关闭并重置网卡,如果这些数据包在业务环境中持续存在,网卡将持续发生重置。”
5、最终处理结果为,升级网卡的驱动和固件版本,运行,观察一个月,如上问题未再出现。(后续有专门讲怎样查看网卡的驱动和固件,并结合厂家的兼容性列表进入升级)
四、问题总结
优先恢复受影响的VM机器。再后续追踪,查找问题根源,彻底解决问题。