设备型号:KunTai R522
主板型号:S920X00
BMC芯片:1711版
BMC版本:(U82)3.03.00.35
BIOS 版本: (U75)1.91
CPLD版本:(U6076)6.08
客户报障现场1台服务器异常重启,需查明原因并解决
1. 查看日志中当前告警记录,服务器健康状态良好,无告警。
2. 查看sel事件日志记录,发现日志打印2024/3/6 02:10:19存在系统未知原因异常重启记录,同时重启前后伴随有内存CE报错。
3. 进一步分析fdm_output诊断日志,发现大量内存 CE纠错率超阈值打印,且均指向DIMM011。
4. 分析fdm_log日志,发现内存大量CE打印。
5. 查看当前服务器Bios配置,CorrectErrorThreshold值为6000,查看当前Bios版本为1.93,排除版本与设置问题。
6. 分析systemcom 系统日志,发现系统异常重启前触发call trace,内存访问异常
综上所述,初步判断该设备异常重启原因为DIMM011内存故障引起。
更换故障内存条