设备型号:KunTai R722
RAID卡型号: AVAGO Mega RAID SAS 9460-8i
RAID卡固件版本:5.130.00-3059
涉及硬盘型号:SAMSUNG MZ7LH3T8HMLT-00005 /3.84T/ SATA/ SSD
硬盘固件版本:HXT7904Q
设备固件版本:iBMC Version:3.01.12.47
BIOS Version: (U75)1.21
现场RAID配置:DISK40、41,RAID1,DISK0-11,单盘RAID0
服务器一块硬盘故障,工程师携带硬盘上门更换,更换硬盘后需要重组RAID,创建RAID失败,修复RAID卡后配置丢失
1、2023/7/20 23:08,企业微信群聊问题上报,停机更换硬盘后创建RAID0 ,BIOS显示状态异常,初步分析需要按BIOS中提示修复RAID卡;
2、进一步与现场沟通,了解到RAID卡健康状态已经是正常,且RAID卡中已经没有RAID组了,现场已经执行过RAID卡修复操作,但对照文档漏了两步,重启设备后无法进入操作系统;
3、尝试重启设备查看RAID卡状态和RAID组状态、是否存在外部配置等,确认为RAID卡修复操作不完整,RAID配置已丢失;
4、尝试恢复配置和数据
(1)换张raid卡,然后看有没有外部配置导入
(2)更换的是raid0,不影响数据结构,直接手动组回去
5、首先尝试第一步,更换同型号RAID卡后进入BIOS,无外部配置导入选项,方案Pass,执行第二方案,获取设备之前的RAID配置与相关参数,手动重新组RAID,创建RAID时选择不初始化硬盘;
6、首先配置两块系统盘RAID1,配置完后重启设备,能正常到系统启动阶段,但长时间未进入到系统内
7、怀疑是系统uuid绑定,新盘信息不一致导致系统进不去,远程进入单用户模式,注释掉本次更换硬盘对应的数据挂载,再次重启,可以正常启动
现场数据盘均配置单盘RAID0,硬盘故障后会导致RAID组失效,触发RAID卡机制无法直接创建新RAID,需要执行修复,现场ASP在执行修复RAID卡操作时,未完全按文档指引操作完成便重启设备,导致RAID卡触发配置清除
RAID配置信息不仅存在于RAID卡中,硬盘中也会存储相关信息,若在RAID卡中误操作删除配置,并不会导致配置和数据完全丢失,重组大概率可恢复;
1、给客户做前期配置时,尽量建议客户少用单盘RAID0,使用有冗余的RAID级别
2、RAID卡修复时需要仔细对照参考文档操作
3、不重启设备,更换硬盘后如果bmc创建新RAID组失败,在系统下使用strocli工具相关命令清除缓存中的脏数据,再尝试创建(涉及系统内操作,风险较高,且方案未经过完全验证过,不建议使用)