服务器 2024-06-18

KunTai R722丢包问题分析

一、现网描述

1.1 环境描述

设备型号:KunTai R722


二、 故障描述

2.1 故障现象

客户反馈在部署了exporter功能之后发现大量服务器存在丢包现象,导致网管平台批量频繁告警。从操作系统层面通过ifconfig看到bond和物理网卡存在大量dropped数据包。如下图:

image.png

image.png


三、 问题分析

iBMC一键收集带外日志,内容未见异常,设备无异常告警

 image.png

相关网卡状态正常,固件状态正常,该固件版本其他局点有使用,未出现相关问题

image.png

使用InfoCollect工具收集问题设备带内日志并分析,发现ifconfig命令下bond0及下属物理网口存在大量dropped计数

image.png

image.png


查看日志内设备bond相关配置,bond0配置为model 4,LACP模式,相关配置未发现异常

image.png

image.png

分析日志内容,发现设备上两张SP333网卡所使用的驱动均为系统自带驱动,不是厂家配套的,建议升级到厂家配套。

image.png

image.png


进一步分析ethtool命令相关回显,发现ethtool -S 命令回显中dropped数均为0,表明网卡硬件与驱动层面没有丢包的记录,当前ifconfig查询看到的丢包属于协议侧产生的,需要OS侧分析一下协议丢包的原因。

image.png


四、解决方案

1、 提供现场对应网卡原厂驱动升级排除隐患

设备使用的都是OS自带的驱动,不是厂家配套的,建议升级到厂家配套。

2、 建议系统厂商从ifconfig协议层分析

ethtool日志里面dropped计数都是0,证明网卡硬件与驱动层面没有丢包的记录。当前ifconfig查询看到的丢包属于协议侧产生的。需要OS侧分析一下协议丢包的原因。