服务器 2024-06-19

KunTai R522服务器异常重启

一、现网描述

1.1 环境描述

设备型号:KunTai R522

主板型号:S920S00

网卡型号:MCX512A-ACUT

网卡固件版本:16.32.1010

BMC芯片:1711版

BMC版本:(U82)3.10.00.05

BIOS 版本: (U75)KL4.009.KT.230803.R

CPLD版本:(U6076)1.12


二、故障描述

2.1故障现象

客户报障现场多台服务器异常重启,且该局点前期已发现多次类似问题,需查明根因并解决。

 

三、问题分析

3.1排查思路

1. 分析sel事件日志记录,发现日志打印设备存在因未知原因异常重启的记录,同时伴随有PCIE Card3/6 UCE报错告警。

image.png

2. 分析fdm_output诊断日志,发现日志记录网卡存在的报错为fatal AER,Error Code:Malformed TLP。

image.png

3. 查看card_info日志,发现涉及的PCIE Card 3/6网卡,槽位信息与设备信息识别正常。

image.png

4. 查看netcard_info对应故障时间日志打印,网卡可以正常识别固件信息、所在槽位与mac地址等基本参数

image.png

5. 分析systemcom 系统串口日志,发现系统异常重启前伴随有系统call trace触发,且存在Hardware error报错,错误类型fatal error、Malformed TLP AER。

image.png

6.  查看Bios设置参数,“PCIEMaxPayloadSize”参数值均为256B,OS 下该参数值与Bios一致,排除该参数不一致导致出现问题可能性。

image.png

7. 进一步了解现场情况,对比发现仅配置了VF环境偶发此类问题,现场系统配置64个VF,VF(Virtual Function)是建立在PCIe PF(Physical Function)设备上的PCIe设备,相当于在一个PCIe接口上分裂出多个PCIe接口,64个VF对PCIe总线负载增加64倍,消息传输量增加,超出CPU Root Complex能力,会增加发生AER报错的几率和CTO的发生CTO的发生在现有固件版本上会被误报为Malformed TLP AER详情请见附录5.3

image.png

8. 现场使用的固件版本16.32.1010对AER错误类型处置缺乏清晰的处置规则,未屏蔽不该屏蔽的AER错误,导致在消息传输量增加情况下触发误报,错误上报了malformed TLP 类型的AER错误,导致系统出现异常,详情请见附录5.2。

image.png

9. 新固件版本对该问题进行了处理,处理方式是按照AER规则将上报的AER错误在网卡固件侧处置,避免系统由于此类误报导致系统异常。

Mellanox 固件历史修复问题:

image.png

固件修复详情:

image.png

上图内容概要:CX-5 硬件参数设置不当,未屏蔽AER必要信息,导致网卡固件在PCIe负载较大或者发生超时时发生误报,正确行为应为固件侧根据AER规则进行处理。

修复流程示意图: 

image.png

3.2原因分析总结

综上,当前问题根因为设备配置网卡MCX512A-ACUT固件版本16.32.1010存在Malformed TLP AER误报BUG,且结合现场情况分析和历史案例情况,VF数量增加会导致PCIe总线负载增加,加大触发误报的概率,进而导致系统出现异常重启问题。


四、解决方案

建议升级网卡MCX512A-ACUT固件至16.35.3006,解决误报问题,从而解决服务器异常重启问题。