服务器 2024-06-18

BIOS设置错误导致ARO5200丢包

一、问题描述

1.1 问题现象

服务器上层搭载华为ARO5200融合数据与业务体验系统业务时,现网局点存在网卡drop丢包、SA丢包等问题,上层业务平台上报“ALM-150032 探针丢包”告警,影响业务处理。

1.2 触发条件

涉及补丁升级或者操作系统重启的场景,如版本升级、系统重启、服务器上下电、升级BIOS、升级操作系统内核等都有可能触发该问题。

 

二、问题原因

现网局点未将BIOS参数CPU Prefetching Configuration BIOS配置为Disabled状态,影响业务处理。

服务器使用的鲲鹏920型号CPU的next cacheline预取算法cacheline对齐存在问题,对锁的访问可能会导致频繁的跨cacheline读取,读取的性能降低,持续导致CPU占用高,服务器性能下降,影响HMS/ORIGIN业务。 


三、影响与风险

补丁升级、系统重启、服务器上下电、升级BIOS、升级操作系统内核等操作,会概率性触发上述问题,导致CPU占用过高引起丢包,影响上层业务处理。

 

 四、解决方案

将服务器Bios下CPU Prefetching Configuration参数设置为Disabled

image.png