服务器 2024-06-24

KunTai R622内存故障问题分析

一、现网描述

1.1 环境描述

设备型号:KunTai R622


二、故障描述

2.1故障现象

服务器ibmc 出现告警事件,DIMM060槽位内存发生不可纠正错误

image.png


三、问题分析

3.1排查思路

1.Sel日志中时间点为2023-11-07 15:05:35 DIMM060上报UCE记录

image.png

2.Fdm日志中记录到对应时间点DIMM060大量UEO(潜伏错误或可重启错误)告警

image.png

常见内存故障类型分为可纠正错误(CE)、不可以纠正错误(UCE)、延迟的错误(DE)

Corrected error:可纠正错误(CE),该错误被检测到并且被纠正,不影响系统运行,比如内存DDR单bit错误,可以通过ECC纠正。

Deferred error:延迟的错误(DE),没有被沉默(silently)传播,可能是系统潜在的错误。比如内存控制器写数据到内存条,发现要写的数据存在不可纠正错误,它会将该错误数据写到内存,并打上poison标记,则为deferred错误。

Uncorrected error:不可纠正错误(UE),该错误被检测到且未被纠正或延迟,它又可划分为下面几个子类:潜伏错误或可重启错误(UEO)、带标记错误或可恢复错误(UER)、不可恢复错误(UEU)、不可抑制错误(UC)。

3.fdm_output日志中记录DIMM060内存由于频繁UCE导致的PFAE事件,下一时间点有多次UCE产生,如下图:

image.png


四、问题解决

4.1解决办法

DIMM060内存硬件产生UEO(潜伏错误或可重启错误),该内存故障告警可通过重启服务器恢复。但DIMM060内存PFA错误计数超门限,建议更换内存,避免后续出现设备异常重启或停止响应的故障风险。

4.2 解决方案

"DIMM060 triggered an uncorrectable error, (SN:857E325E).","2023-11-07 15:05:35","Asserted","0x01000017" 告警事件常用处理步骤如下:

1.下电后检查该部件与其插槽是否存在损坏或接触不良现象。

是 => 2

否 => 3

2.重新连接该部件,检查告警是否清除。

是 => 处理完毕

否 => 3

3.更换产生告警的内存,检查告警是否清除。