服务器 2024-06-19

KunTai R522服务器异常重启问题分析

一、现网描述

1.1 环境描述

设备型号:KunTai R522

主板型号:S920X00

BMC芯片:1711版

BMC版本:(U82)3.03.00.35

BIOS 版本: (U75)1.91

CPLD版本:(U6076)6.08


二、故障描述

2.1故障现象

客户报障现场1台服务器异常重启,需查明原因并解决


三、问题分析

3.1排查思路

1. 查看日志中当前告警记录,服务器健康状态良好,无告警。

image.png

2. 查看sel事件日志记录,发现日志打印2024/3/6 02:10:19存在系统未知原因异常重启记录,同时重启前后伴随有内存CE报错。

image.png

3. 进一步分析fdm_output诊断日志,发现大量内存 CE纠错率超阈值打印,且均指向DIMM011。

image.png

4. 分析fdm_log日志,发现内存大量CE打印。

image.png

5. 查看当前服务器Bios配置,CorrectErrorThreshold值为6000,查看当前Bios版本为1.93,排除版本与设置问题。

image.png

image.png

6. 分析systemcom 系统日志,发现系统异常重启前触发call trace,内存访问异常

image.png

3.2原因分析

综上所述,初步判断该设备异常重启原因为DIMM011内存故障引起。


四、问题解决

4.1解决办法

更换故障内存条