产品型号:KunTai R722
硬件配置:MegaRAID 9560-8i 4GB、HUAWEI HWE62ST3480L003N、SP380、SP333
软件配置:BMC、BIOS、CPLD版本:3.02.05.22、1.85、7.02
5月22日凌晨4点57分NCE-Fabric控制器上报OVSDB链路断链、JsonRpc链路断链、设备状态Down等告警,几秒后自动清除,业务无影响
1. 查看current_event日志文件,当前设备无告警,健康状态良好。
2. 分析sel事件记录日志,该设备在近期无问题相关异常事件打印。
3. 分析RAID_Controller_Info日志,当前raid卡9560-8i状态正常。
4. 分析Raid组状态,发现设备仅配置一个RAID10,当前状态正常。
5. 分析物理磁盘状态,发现Disk0有部分Other Error错误计数,说明该磁盘内部可能存在故障。
6. 分析LSI_RAID_Controller_Log日志,故障发生时raid控制器记录到Disk0出现Unexpected sense2/04/00报错。
7. 深入分析Raid卡日志,发现Disk0在2/04/00持续20s后触发reset复位。
8. 当前raid卡固件(5.200.02.3681)异常处理流程。
综上,故障发生是由于Disk0 磁盘异常并处于not ready状态,Raid卡在诊断磁盘状态时,会导致IO阻塞,使IO冲高到100%。
更换问题硬盘Disk0;
新版raid卡固件52.27.0-5172,已修复not ready导致IO长时间hang问题,升级Raid卡固件版本解决。
DCSG01489595 Fix Ses device not ready handling path
检测到磁盘状态not ready之后,会做五次重试并且设备被标记为故障进行踢盘。整个重试过程会产生两秒延迟。当处理not ready情形,对于存储设备将交由上层(raid卡)处理重试。