服务器 2024-06-25

服务器raid蜂鸣器异响

一、现网描述

1.1 环境描述

设备型号:KunTai R524

RAID卡:9460-8i


二、故障描述

2.1故障现象

现场1台服务器蜂鸣器异响,查看current_event.txt中记录的当前事件,设备当前运行状态正常,无告警

阵列信息:

Logcial Drive(s) ID                      : 0

Physical Drive(s) ID                     : 40,41(raid1)

----------------------------------------------------------------------

Logcial Drive(s) ID                      : 1

Physical Drive(s) ID                     : 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21(raid6)

Dedicated Hot Spare PD (ID#)             : 22,23

----------------------------------------------------------------------

Logcial Drive(s) ID                      : 2

Physical Drive(s) ID                     : 24,25,26,27,28,29,30,31,32,33,34(raid6)

Dedicated Hot Spare PD (ID#)             : 35


三、问题分析

3.1排查思路

  1.  查看sel日志中记录的历史事件,disk2有故障异常状态告警信息,将disk2从槽位拔掉后disk2所在的raid组由热备盘disk22顶替开始重构,后续disk2已更换新硬盘状态正常。

    image.png

  2. 通过日志server_config文件确认服务器配置raid6是由disk0到disk21组成,并且配置了disk22、disk23为其局部热备盘,重构完成后raid状态正常,但disk2显示局部热备盘,disk22已加入到raid6组中。

    image.png

    image.png

  3. 继续分析,RAID卡日志记录到2024-01-10 07:30:12 disk22开始重构,2024-01-10 07:36:28插入新盘disk2,2024-01-10 08:39:31 disk2被创建为热备盘,Disk22重构完成后未从RAID组释放对disk2做回拷操作,导致蜂鸣器持续鸣响。

image.png

image.png

image.png

3.2 分析总结

1、蜂鸣器持续鸣响原因:热备盘Disk22在其他硬盘(Disk2)故障后加入RAID组,更换故障盘后,故障盘未自动触发回拷,导致热备盘未从RAID组释放,进而导致蜂鸣器持续鸣响提示用户。

2、更换故障盘后未自动触发回拷原因:和该槽位上一块硬盘被设置为热备盘的操作有关,建议后续不要随意设置RAID组其他成员盘为热备盘。


四、问题解决

4.1解决办法

通过手动触发回拷恢复,参考以下命令格式和实例:

image.png

image.png