服务器 2024-06-19

KunTai R722硬盘全部离线问题分析

一、现网描述

1.1 环境描述

设备型号:KunTai R722


二、 故障描述

2.1 故障现象

服务器全部硬盘出现离线告警。


三、 问题分析

 Sel日志中2023-08-29 12:58:55开始上报硬盘is missing告警

image.png

Fdm_log日志内容为空,无主板、cpu、内存相关硬件侧告警信息。

Fdm_output诊断日志中记录信息正常,无其他硬件告警信息输出。

image.png

 raid卡日志查看确认raid卡链路状态正常,硬盘全部离线,状态N/A

image.png

image.png

进一步分析raid控制器日志,发现在硬盘批量离线前,raid卡有检测到致命错误而重启的记录

image.png

RAID卡日志分析,8.29 12:51:38 记录到硬盘背板无响应,之后12:51:51触发RAID卡FW bug,12:52:03 RAID卡FW发生reset。之后设备重新上电过程中硬盘背板有sense:70 00 06报错,具体解析为链路数据相位异常

image.png

检查maintenance日志,8.29 12:58:47 产生了硬盘missing事件,上报原因是BMC执行硬盘点灯失败,而硬盘在位信号正常即会上报硬盘missing

image.png

检查app_debug_log,发现在8.29 12:56左右,记录大量的存储异常记录,获取硬盘的PDI信息异常,确认该时间段硬盘链路存在异常

image.png

3.2原因分析

1、硬盘背板先上报无响应异常,且在设备上下电之前没有恢复记录

2、RAID卡FW fatal error产生的原因为RAID卡FW bug,且在之后的1min内已经reset恢复ps:若RAID卡FW一直挂死,BMC会上报通信丢失告警

3、根据RAID卡日志,发现硬盘背板时长有异常sense上报,sense解析为数据链路异常


四、解决方案

1、链路异常分析,需要协助SAS协议分析仪,抓取trace进行分析。

2、若现网不支持抓trace,建议可以考虑最小化排除方式,依次更换SAS线缆、RAID卡、背板的方式进行跟踪观察。或者考虑一次性更换整改链路:RAID+SAS线缆+硬盘背板