服务器 2024-06-18

KunTai R722服务器硬盘误告警

一、现网描述

1.1 环境描述

设备型号:KunTai R722

主板型号:S920S00

硬盘型号:SEAGATE/ST1800MM0129/1.8 TB/SAS/HDD

BMC芯片:1711版

BMC版本:(U82)3.03.00.23

BIOS 版本:(U75)1.88

CPLD版本:(U6076)6.03


二、故障描述

2.1故障现象

客户现场1台服务器出现硬盘连接状态异常告警,同时主板CPLD自检错误告警。

 image.png


三、问题分析

3.1排查思路

1. 查看硬盘状态,发现告警槽位的硬盘状态信息全为N/A,未识别到。

 image.png

2. 查看sel日志记录,发现大量风扇错误又恢复告警。

 image.png

3. 查询服务器配置清单,发现告警的8、10、40槽位未配置硬盘,怀疑可能不是硬盘故障

image.png 

 3.2原因分析

硬盘部分由于告警槽位未配置硬盘,判断为误报,且服务器存在大量风扇告警,CPLD自检失败告警,判断根因为主板故障


四、问题解决

4.1解决办法

更换故障主板。

4.2分析总结

主板或其他背板设备故障,可能会导致硬盘等部件出现误告警,需要具体定位根因