服务器 2024-06-19

KunTai R524服务器丢包问题分析

一、现网描述

1.1 环境描述

设备型号:KunTai R524

主板型号:S920S00-2*5220(32C@2.6)-AJ-VE-1711

BMC芯片:1711版

BMC版本:(U82)3.10.00.05

BIOS 版本: (U75)6.58

CPLD版本:(U6076)1.12

网卡型号:SP380

网卡固件版本:14.32.1010


二、故障描述

2.1故障现象

客户报障现场大量服务器测试时上层监控平台发现丢包率过高,需查明原因并解决

 

三、问题分析

3.1排查思路

1. 首先查看BMC日志中当前告警记录,发现当前设备无告警,健康状态良好。

image.png

2.  分析现场返回的os日志,发现设备当前ifconfig下Rx端确认存在部分dropped计数,但error错包数量与overruns溢出数量均为0。

image.png

3. 进一步分析ethtool参数,发现ethtool -S下dropped数量均为0,结合上述日志可初步推断网卡硬件与驱动层面没有错包、丢包与buffer不足溢出问题。

image.png

4. 对比其他网卡相关参数,未发现明显差异。

5. 进一步分析,发现现场反馈的正常机器与异常机器之间的当前系统下网卡驱动版本存在差异,我司当前系统下网卡驱动版本为5.5-1.0.3。

image.png

6. 友商设备当前系统下网卡驱动版本为23.10-1.1.9。

image.png

7. 提供23.10-1.1.9驱动包现场升级后,观察丢包情况正常,问题解决。

3.2原因分析

综上所述,导致现场设备出现丢包异常情况原因为操作系统下网卡驱动程序版本过低导致,升级驱动至23.10-1.1.9解决。

注:网卡驱动程序与操作系统强相关,为操作系统驱动网卡设备的软件,非硬件出厂自带。

 

四、问题解决

升级网卡驱动至23.10-1.1.9,建议后续在使用前由操作系统侧默认将网卡驱动升级至推荐版本。