设备型号:KunTai R522
主板型号:S920S00
网卡型号:MCX512A-ACUT
网卡固件版本:16.32.1010
BMC芯片:1711版
BMC版本:(U82)3.10.00.05
BIOS 版本: (U75)KL4.009.KT.230803.R
CPLD版本:(U6076)1.12
客户报障现场多台服务器异常重启,且该局点前期已发现多次类似问题,需查明根因并解决。
1. 分析sel事件日志记录,发现日志打印设备存在因未知原因异常重启的记录,同时伴随有PCIE Card3/6 UCE报错告警。
2. 分析fdm_output诊断日志,发现日志记录网卡存在的报错为fatal AER,Error Code:Malformed TLP。
3. 查看card_info日志,发现涉及的PCIE Card 3/6网卡,槽位信息与设备信息识别正常。
4. 查看netcard_info对应故障时间日志打印,网卡可以正常识别固件信息、所在槽位与mac地址等基本参数
5. 分析systemcom 系统串口日志,发现系统异常重启前伴随有系统call trace触发,且存在Hardware error报错,错误类型fatal error、Malformed TLP AER。
6. 查看Bios设置参数,“PCIEMaxPayloadSize”参数值均为256B,OS 下该参数值与Bios一致,排除该参数不一致导致出现问题可能性。
7. 进一步了解现场情况,对比发现仅配置了VF环境偶发此类问题,现场系统配置64个VF,VF(Virtual Function)是建立在PCIe PF(Physical Function)设备上的PCIe设备,相当于在一个PCIe接口上分裂出多个PCIe接口,64个VF对PCIe总线负载增加64倍,消息传输量增加,超出CPU Root Complex能力,会增加发生AER报错的几率和CTO的发生(CTO的发生在现有固件版本上会被误报为Malformed TLP AER),详情请见附录5.3。
8. 现场使用的固件版本16.32.1010对AER错误类型处置缺乏清晰的处置规则,未屏蔽不该屏蔽的AER错误,导致在消息传输量增加情况下触发误报,错误上报了malformed TLP 类型的AER错误,导致系统出现异常,详情请见附录5.2。
9. 新固件版本对该问题进行了处理,处理方式是按照AER规则将上报的AER错误在网卡固件侧处置,避免系统由于此类误报导致系统异常。
Mellanox 固件历史修复问题:
固件修复详情:
上图内容概要:CX-5 硬件参数设置不当,未屏蔽AER必要信息,导致网卡固件在PCIe负载较大或者发生超时时发生误报,正确行为应为固件侧根据AER规则进行处理。
修复流程示意图:
综上,当前问题根因为设备配置网卡MCX512A-ACUT固件版本16.32.1010存在Malformed TLP AER误报BUG,且结合现场情况分析和历史案例情况,VF数量增加会导致PCIe总线负载增加,加大触发误报的概率,进而导致系统出现异常重启问题。
建议升级网卡MCX512A-ACUT固件至16.35.3006,解决误报问题,从而解决服务器异常重启问题。