设备型号:KunTai R722
主板型号:S920X00-7260-AH 2*(920,64C)1711
BMC芯片:1711版
BMC版本:(U82)3.03.00.23
BIOS 版本: (U75)1.88
CPLD版本:(U6076)6.03
RAID控制器:9460-8i
RAID控制器固件版本:5.130.00-3059
客户报障现场1台服务器BBU告警,但更换BBU电池后仍继续告警,需查明原因并解决
1. 首先查看日志中当前告警记录,发现当前存在告警,详情为BBU电压过低与BBU模块故障。
查看sel事件日志记录,发现日志打印最早于2023/12/28 16:40:05已出现BBU故障告警
2. 进一步分析RAID_Controller_Info日志,RAID卡健康状态为“Normal”,BBU状态为在位,但健康状态异常。
3. 分析fdm_output诊断日志,未发现其他异常打印。
4. 查看operate_log操作日志,故障发生前仅有服务器开机操作,未发现其他异常。
5. 查看设备传感器信息,发现BBU模块状态异常。
6. 分析LSI_RAID_Controller_Log,日志记录到BBU电池故障,数据保护功能失效。
7. 结合上述情况,初步判断为BBU模块故障,需要更换BBU模块,但现场在3/20更换BBU模块后反馈仍有告警
8. 再次分析LSI_RAID_Controller_Log日志,更换新BBU模块后,电池自动开始充电,充电后,自动开始relearn,但relearn超时,判断可能RAID卡故障导致relearn失败。
综上所述,该设备故障原因为Raid卡与BBU模块故障
更换故障BBU与RAID卡解决