服务器 2024-06-19

KunTai R722 更换硬盘后误操作导致配置丢失

一、 现网描述

1.1 环境描述

设备型号:KunTai R722

RAID卡型号: AVAGO Mega RAID SAS 9460-8i

RAID卡固件版本:5.130.00-3059

涉及硬盘型号:SAMSUNG MZ7LH3T8HMLT-00005 /3.84T/ SATA/ SSD

硬盘固件版本:HXT7904Q

设备固件版本:iBMC Version:3.01.12.47

                         BIOS Version: (U75)1.21


二、 故障描述

2.1 故障现象

现场RAID配置:DISK40、41,RAID1,DISK0-11,单盘RAID0

服务器一块硬盘故障,工程师携带硬盘上门更换,更换硬盘后需要重组RAID,创建RAID失败,修复RAID卡后配置丢失


三、 问题分析

3.1 排查思路

1、2023/7/20 23:08,企业微信群聊问题上报,停机更换硬盘后创建RAID0 ,BIOS显示状态异常,初步分析需要按BIOS中提示修复RAID卡;

2、进一步与现场沟通,了解到RAID卡健康状态已经是正常,且RAID卡中已经没有RAID组了,现场已经执行过RAID卡修复操作,但对照文档漏了两步,重启设备后无法进入操作系统;

image.png

image.png

3、尝试重启设备查看RAID卡状态和RAID组状态、是否存在外部配置等,确认为RAID卡修复操作不完整,RAID配置已丢失;

image.png

4、尝试恢复配置和数据

(1)换张raid卡,然后看有没有外部配置导入

(2)更换的是raid0,不影响数据结构,直接手动组回去

5、首先尝试第一步,更换同型号RAID卡后进入BIOS,无外部配置导入选项,方案Pass,执行第二方案,获取设备之前的RAID配置与相关参数,手动重新组RAID,创建RAID时选择不初始化硬盘;

6、首先配置两块系统盘RAID1,配置完后重启设备,能正常到系统启动阶段,但长时间未进入到系统内

image.png

7、怀疑是系统uuid绑定,新盘信息不一致导致系统进不去,远程进入单用户模式,注释掉本次更换硬盘对应的数据挂载,再次重启,可以正常启动

image.png

3.2 原因分析

现场数据盘均配置单盘RAID0,硬盘故障后会导致RAID组失效,触发RAID卡机制无法直接创建新RAID,需要执行修复,现场ASP在执行修复RAID卡操作时,未完全按文档指引操作完成便重启设备,导致RAID卡触发配置清除

image.png


四、 问题解决

4.1 分析总结

  RAID配置信息不仅存在于RAID卡中,硬盘中也会存储相关信息,若在RAID卡中误操作删除配置,并不会导致配置和数据完全丢失,重组大概率可恢复;

4.2 建议

1、给客户做前期配置时,尽量建议客户少用单盘RAID0,使用有冗余的RAID级别

2、RAID卡修复时需要仔细对照参考文档操作

3、不重启设备,更换硬盘后如果bmc创建新RAID组失败,在系统下使用strocli工具相关命令清除缓存中的脏数据,再尝试创建(涉及系统内操作,风险较高,且方案未经过完全验证过,不建议使用)