服务器 2024-06-24

KunTai R722服务器硬盘IO异常问题分析

一、现网描述

1.1 环境描述

产品型号:KunTai R722

硬件配置:MegaRAID 9560-8i 4GB、HUAWEI HWE62ST3480L003N、SP380、SP333

软件配置:BMC、BIOS、CPLD版本:3.02.05.22、1.85、7.02


二、故障描述

5月22日凌晨4点57分NCE-Fabric控制器上报OVSDB链路断链、JsonRpc链路断链、设备状态Down等告警,几秒后自动清除,业务无影响

image.png


三、问题分析

3.1   硬件日志分析

1. 查看current_event日志文件,当前设备无告警,健康状态良好。

image.png

2. 分析sel事件记录日志,该设备在近期无问题相关异常事件打印。

image.png

3. 分析RAID_Controller_Info日志,当前raid卡9560-8i状态正常。

image.png

4. 分析Raid组状态,发现设备仅配置一个RAID10,当前状态正常。

image.png

5. 分析物理磁盘状态,发现Disk0有部分Other Error错误计数,说明该磁盘内部可能存在故障。

image.png

6. 分析LSI_RAID_Controller_Log日志,故障发生时raid控制器记录到Disk0出现Unexpected sense2/04/00报错。image.png

7. 深入分析Raid卡日志,发现Disk0在2/04/00持续20s后触发reset复位。image.png

8. 当前raid卡固件(5.200.02.3681)异常处理流程。

image.png

3.2   分析结论

综上,故障发生是由于Disk0 磁盘异常并处于not ready状态,Raid卡在诊断磁盘状态时,会导致IO阻塞,使IO冲高到100%。


四、问题解决

4.1  解决办法

更换问题硬盘Disk0;

新版raid卡固件52.27.0-5172,已修复not ready导致IO长时间hang问题,升级Raid卡固件版本解决。

DCSG01489595 Fix Ses device not ready handling path

image.png

检测到磁盘状态not ready之后,会做五次重试并且设备被标记为故障进行踢盘。整个重试过程会产生两秒延迟。当处理not ready情形,对于存储设备将交由上层(raid卡)处理重试。