设备型号:KunTai R522
硬件配置:
2块480GB SSD做的RAID1安装系统
RAID卡:MegaRAID 9440-8i
网卡:2张SP333网卡(MT27710 Family [ConnectX-4 Lx])
系统:CentOS Linux release 7.6.1810 (AltArch)、Linux version 4.14.0-115.el7a.0.1.aarch64
使用iperf3工具压测网络存在重传问题,服务器网卡型号为sp333
连接交换机通过iperf3测试,流量在4G以下的话不存在重传,超过4G会存在大量重传。
由于IP协议的不可靠性和网络系统的复杂性,少量的报文丢失和TCP重传是正常的,但是如果业务交互过程中,存在大量的TCP重传,会严重影响业务系统交互的效率,导致业务系统出现缓慢甚至无响应的情况发生。一般而言,出现大量TCP重传说明网络通讯的状况非常糟糕,需要站在网络层的角度分析丢包和重传的原因。
1、 通过BMC日志查看服务器无硬件告警
2、 查看网卡参数信息及驱动固件版本正常
注:已尝试更新过网卡驱动和固件版本依然存在重传问题
驱动版本:5.0更新至5.3-1.0.0
固件版本:14.20.1010 更新至14.31.1014
按照以上情况对网卡进行调优设置:
1、 配置服务器能效模式,将Efficiency改为Performance。
2、修改TX RX buff参数值。
a)查看当前Current hardware settings配置ethtool -g ethN
(ethN为网卡端口号,根据实际网卡名称修改)
b)修改RX and TX Buffer值,使用ethtool –G ethN rx Pre-set maximums tx Pre-set maximums
举例:ethtool –G eno1 rx 8192 tx 8192
(ethN为网卡端口号,根据实际网卡名称修改;Pre-set maximums为上述ethtool -g ethN命令回显值)
配置后再使用ethtool –g eno1确认下Current hardware settings是否修改成功。
注:原当前设置为1024
按照对网卡调优配置、更换麒麟、欧拉系统做流量压测也存在大量重传,排除硬件、操作系统、固件驱动的问题,疑似现网中交换机侧问题。根据原因分析测试:
两台服务器直连或更换其它厂家交换机,重传问题没有复现;
经过分析测试已排除服务器侧问题,最终排查结果为客户现场的网络问题导致重传,由交换机厂商做后续跟进处理。
网卡测试存在重传问题,按照分析思路步骤确定问题根因,首先排除硬件、操作系统、固件驱动版本因素,再排查现网中其他设备问题。本案例中,经交换厂商排查,重传问题与客户使用的交换机型号及单链路部署形式有关,当流量过大时超出了现网流量转发性能。