设备型号:KunTai R622
服务器ibmc 出现告警事件,DIMM060槽位内存发生不可纠正错误
1.Sel日志中时间点为2023-11-07 15:05:35 DIMM060上报UCE记录
2.Fdm日志中记录到对应时间点DIMM060大量UEO(潜伏错误或可重启错误)告警
常见内存故障类型分为可纠正错误(CE)、不可以纠正错误(UCE)、延迟的错误(DE)
Corrected error:可纠正错误(CE),该错误被检测到并且被纠正,不影响系统运行,比如内存DDR单bit错误,可以通过ECC纠正。
Deferred error:延迟的错误(DE),没有被沉默(silently)传播,可能是系统潜在的错误。比如内存控制器写数据到内存条,发现要写的数据存在不可纠正错误,它会将该错误数据写到内存,并打上poison标记,则为deferred错误。
Uncorrected error:不可纠正错误(UE),该错误被检测到且未被纠正或延迟,它又可划分为下面几个子类:潜伏错误或可重启错误(UEO)、带标记错误或可恢复错误(UER)、不可恢复错误(UEU)、不可抑制错误(UC)。
3.fdm_output日志中记录DIMM060内存由于频繁UCE导致的PFAE事件,下一时间点有多次UCE产生,如下图:
DIMM060内存硬件产生UEO(潜伏错误或可重启错误),该内存故障告警可通过重启服务器恢复。但DIMM060内存PFA错误计数超门限,建议更换内存,避免后续出现设备异常重启或停止响应的故障风险。
"DIMM060 triggered an uncorrectable error, (SN:857E325E).","2023-11-07 15:05:35","Asserted","0x01000017" 告警事件常用处理步骤如下:
1.下电后检查该部件与其插槽是否存在损坏或接触不良现象。
是 => 2
否 => 3
2.重新连接该部件,检查告警是否清除。
是 => 处理完毕
否 => 3
3.更换产生告警的内存,检查告警是否清除。