服务器 2024-06-24

KunTai R722产生Nandflash写入量超过门限告警

一、现网描述

1.1 环境描述

设备型号:KunTai R722

硬件配置:9460-8i RAID卡


二、故障描述

2.1故障现象

客户现场服务器产生告警

告警描述:The data written to the NAND flash in last 15 days exceeds 12G.


三、问题分析

3.1排查思路

1.收集日志,根据告警提示查看查看/dump_info/AppDump/BMC/nandflash_info.txt文件

image.png

2. 告警提示Nandflash写入量超过12G,而实际只有2.279G,因此该告警为误告警

3.2 原因分析

1.iBMC版本为以下特定版本

鲲鹏服务器:V622、V624、V625版本

“Total data written in 15 days”这一项实际上小于12G,则确认是误告警。

“Total data written in 15 days”这一项实际上超过12G,则确认是真实告警,非误告警。

特定版本的iBMC计算Nandflash写入量时,15天的写入量会不断累增,而不是按照15天计算写入量。例如每天写入量为0.2G,经过12G / 0.2G = 60天后(中间iBMC没有进行过复位),累增的写入量将达到门限12G,导致产生误告警。

 

四、问题解决

4.1解决办法

1.如果确认是误告警,则升级到以下版本解决问题。

鲲鹏服务器:升级到V626及以上版本

2.如果确认是真实告警,则需要分析Nandflash写入量过多的原因,再分析问题解决方法。

临时规避措施:

如果确认是误告警,可以通过复位iBMC清零写入量的方式消除告警。

注意:复位iBMC消除告警后,再过一段时间,仍会再次产生误告警,需要定期复位iBMC避免再次产生误告警。