服务器 2024-06-25

R722 服务器异常重启

一、现网描述

1.1 环境描述

设备型号:KunTai R722

硬件配置:CPU:Kunpeng 920 7260

                  硬盘背板:12*3.5 SAS/SATA, Expander;2*2.5 SAS/SATA, Rear   

                  RAID:3152-8i/PCIe Card 5 (SAS 3152)

软件配置:BMC:3.03.00.31

                  BIOS:1.89

                 OS:Kylin 4.19.90-23.15.v2101.ky10.aarch64


二、故障描述

2.1故障现象

客户报障现场有一台服务器异常重启,需查明根因情况.


三、问题分析

3.1排查思路

  1. 查看sel日志文件,发现日志打印设备存在因未知原因异常重启的记录。

    image.png

  2. 通过current_event事件查看服务器硬件健康状态正常

    image.png

  3. 分析fdm_output诊断日志,未发现日志记录硬件相关报错信息

    image.png

  4. 进一步分析systemcom串口日志信息,存在内核踩空指针错误信息,触发Oops导致系统重启

    image.png

    3.2 分析结论

      根据分析当前日志,硬件无异常,服务器异常重启的原因是系统侧存在内核踩空指针错误信息,触发Oops导致,同时有vmcore生成,有利于系统侧进一步排查。


四、问题解决

4.1解决办法

硬件无异常,建议系统侧排查