设备型号:KunTai R622
硬件配置:MegaRAID 9560-8i 4GB、SAMSUNG MZ7LH480HAHQ-00005、TOSHIBA MG08ADA800E、SP333
1台R622服务器出现所有硬盘状态异常告警,更换硬盘背板、RAID卡与SAS线缆后无法导入配置
1. 查看current_event日志文件,当前设备硬盘全部告警“state is abnormal”,此类批量问题一般为链路问题,非单块硬盘故障。
2. 分析sel事件记录日志,该设备在5月8日突然出现批量硬盘状态异常,未记录到其他异常操作,排除人为操作因素。
3. 分析RAID_Controller_Info日志,当前raid卡状态正常
4. 分析Raid组状态,发现多个单盘raid0阵列状态均已变为offine,说明raid组已失效
5. 分析磁盘日志SATA_log,各硬盘均无报错,Smart参数正常,说明硬盘健康状态良好
6. 深入分析LSI_RAID_Controller_Log日志,故障发生前raid控制器记录到多块磁盘reset,随后状态变为offline不可用,疑似链路故障导致硬盘批量reset。
7. 分析硬盘链路日志,发现部分Invalid和PhyResetProblem计数,说明SAS链路可能存在问题。
8. 结合上述分析内容,判断设备产生告警原因为链路异常,更换链路前运行过程中有多块硬盘raid掉盘,掉盘后未做拉起,直接更换链路,更换链路后在Foreign View界面检査外部配置的详细信息发现,Foreign 配置下的硬盘实际为offline,这种状态下无法导入,当raid配置中存在offine状态盘的时候,只能通过在PD Mgmt中强制将盘online恢复,但是由于当前更换了新raid卡,新raid卡下,硬盘的状态以及变成Foreign,无法再设置online,导致无法导入外部配置,只能清除先前配置重组raid。
综上,该问题产生原因为硬盘链路故障导致批量硬盘告警,在更换硬盘背板、RAID卡与SAS线缆前,在老raid卡下未将offline的盘恢复,导致新raid卡下无法将硬盘的外部配置关系导入,现场工程师在与客户沟通确认这台是没有使用的设备后,执行操作清除先前遗留的外部配置,并按配置要求重组raid,在重组raid时选择初始化磁盘,导致此前数据丢失。