服务器 2024-11-15

KunTai服务器启动卡在开机界面

一、现网描述

1.1  拓扑描述

image.png

1.2  环境描述

现网两台KunTai 服务器开机启动卡在自检界面


二、故障描述

2.1  故障现象

两台服务器开机一直卡在硬件自检界面

image.png

2.2  故障影响

服务器无法正常开机运行。


三、问题分析

3.1   排查思路

1.     检查服务器指示灯是否异常

2.     登录BMC查看是否有告警信息

3.     清除CMOS信息

4.     做最小化测试

3.2  原因分析

需根据实际情况进行分析:

服务器1:查看iBMC告警中有内存告警

1.检查指示灯和BMC信息,根据0x01000025可判断确认内存问题;

2.根据客户服务器型号(或主板型号)、CPU具体型号及内存数量查询正确插法(服务器主板型号为:S920S00,CPU型号:Kunpeng 920 5220,内存条4根),插法无误。

image.png

3.检查内存条兼容性,且是否规格一致。客户表示尝试过两个CPU只插AB槽位内存条,服务器可正常运行,兼容性没有问题,检查规格发现内存条容量、频率基本一致,但内存颗粒数及颗粒位宽不同。

image.png

服务器2:查看iBMC界面无告警

1.    检查指示灯和BMC信息,无任何报错,多次重启尝试,还是无法进入系统。

image.png

2.怀疑为主板问题,尝试清除主板cmos,问题解决(服务器客户前期测试使用过,客户搬迁时直接断电,导致主板cmos出现问题)。


四、问题解决

4.1  解决办法

需根据实际情况进行分析:

服务器1出现的故障中,查看iBMC告警中有内存告警

解决办法:检查内存是否兼容、安装方式是否正确、内存配置规格是否相同

 

服务器2出现的故障中,查看iBMC告警中无告警

解决办法:

1.进入BMC命令行界面

2.执行以下命令,恢复BIOS的默认设置:ipmcset -d clearcmos,输入“y”;

3.如果服务器此时处于下电状态,执行ipmcset -d powerstate -v 1命令,使服务器上电后,设置生效;如果服务器此时处于上电状态,执行ipmcset -d frucontrol -v 2命令,使服务器先下电再上电后,设置生效。

4.2  分析总结

多种情况均会导致服务器开机卡在开机界面,需要根据具体情况进行判断,在有告警的情况下,重点处理硬件问题,没有告警的情况下可考虑主板上相关器件缓存的问题。

在上述案例中可知内存规格不一致会导致异常问题,所有在生产过程中一定要和客户强调内存条的统一性,以免产生各种异常。

另外在服务器使用过程中,尽量不要使用强制下电,这可能会导致服务器硬件故障的机率增大,且服务器硬件上的缓存信息无法清除导致服务器异常。