服务器 2024-06-19

KunTai R722服务器BBU告警问题分析

一、现网描述

1.1 环境描述

设备型号:KunTai R722

主板型号:S920X00-7260-AH 2*(920,64C)1711

BMC芯片:1711版

BMC版本:(U82)3.03.00.23

BIOS 版本: (U75)1.88

CPLD版本:(U6076)6.03

RAID控制器:9460-8i

RAID控制器固件版本:5.130.00-3059


二、故障描述

2.1故障现象

客户报障现场1台服务器BBU告警,但更换BBU电池后仍继续告警,需查明原因并解决


三、问题分析


3.1排查思路

1. 首先查看日志中当前告警记录,发现当前存在告警,详情为BBU电压过低与BBU模块故障。

image.png

查看sel事件日志记录,发现日志打印最早于2023/12/28 16:40:05已出现BBU故障告警

image.png

2. 进一步分析RAID_Controller_Info日志,RAID卡健康状态为“Normal”,BBU状态为在位,但健康状态异常。

image.png

3. 分析fdm_output诊断日志,未发现其他异常打印。

image.png

4. 查看operate_log操作日志,故障发生前仅有服务器开机操作,未发现其他异常。

image.png

5. 查看设备传感器信息,发现BBU模块状态异常。

image.png

6. 分析LSI_RAID_Controller_Log,日志记录到BBU电池故障,数据保护功能失效。

image.png

7.  结合上述情况,初步判断为BBU模块故障,需要更换BBU模块,但现场在3/20更换BBU模块后反馈仍有告警

image.png

8. 再次分析LSI_RAID_Controller_Log日志,更换新BBU模块后,电池自动开始充电,充电后,自动开始relearn,但relearn超时,判断可能RAID卡故障导致relearn失败。

image.png

3.2原因分析

综上所述,该设备故障原因为Raid卡与BBU模块故障



四、解决方案

更换故障BBU与RAID卡解决