现网两台KunTai 服务器开机启动卡在自检界面
两台服务器开机一直卡在硬件自检界面
服务器无法正常开机运行。
1. 检查服务器指示灯是否异常
2. 登录BMC查看是否有告警信息
3. 清除CMOS信息
4. 做最小化测试
需根据实际情况进行分析:
服务器1:查看iBMC告警中有内存告警
1.检查指示灯和BMC信息,根据0x01000025可判断确认内存问题;
2.根据客户服务器型号(或主板型号)、CPU具体型号及内存数量查询正确插法(服务器主板型号为:S920S00,CPU型号:Kunpeng 920 5220,内存条4根),插法无误。
3.检查内存条兼容性,且是否规格一致。客户表示尝试过两个CPU只插AB槽位内存条,服务器可正常运行,兼容性没有问题,检查规格发现内存条容量、频率基本一致,但内存颗粒数及颗粒位宽不同。
服务器2:查看iBMC界面无告警
1. 检查指示灯和BMC信息,无任何报错,多次重启尝试,还是无法进入系统。
2.怀疑为主板问题,尝试清除主板cmos,问题解决(服务器客户前期测试使用过,客户搬迁时直接断电,导致主板cmos出现问题)。
需根据实际情况进行分析:
服务器1出现的故障中,查看iBMC告警中有内存告警
解决办法:检查内存是否兼容、安装方式是否正确、内存配置规格是否相同
服务器2出现的故障中,查看iBMC告警中无告警
解决办法:
1.进入BMC命令行界面
2.执行以下命令,恢复BIOS的默认设置:ipmcset -d clearcmos,输入“y”;
3.如果服务器此时处于下电状态,执行ipmcset -d powerstate -v 1命令,使服务器上电后,设置生效;如果服务器此时处于上电状态,执行ipmcset -d frucontrol -v 2命令,使服务器先下电再上电后,设置生效。
多种情况均会导致服务器开机卡在开机界面,需要根据具体情况进行判断,在有告警的情况下,重点处理硬件问题,没有告警的情况下可考虑主板上相关器件缓存的问题。
在上述案例中可知内存规格不一致会导致异常问题,所有在生产过程中一定要和客户强调内存条的统一性,以免产生各种异常。
另外在服务器使用过程中,尽量不要使用强制下电,这可能会导致服务器硬件故障的机率增大,且服务器硬件上的缓存信息无法清除导致服务器异常。