记录一次云平台网卡丢包告警案例分析与解决-CSDN博客

一、问题背景

近日在云平台运维过程中，平台监控系统频繁报出如下告警：

节点网卡接收数据包错误数（5 分钟累计）超过阈值

进一步排查发现，该告警主要集中在某些存储节点的业务网卡上。通过 ip -s link show 与 ethtool -S 查看网卡统计信息，发现 rx_missed_errors 等计数器持续增长。这类计数意味着 网卡在接收数据包时发生了硬件层丢包。

虽然业务层面暂未出现明显的功能性故障，但对于存储集群、数据库、高并发应用而言，这类错误会直接带来性能下降、请求超时甚至节点异常的风险，因此必须深入分析并解决。

数据包到达主机的流程大致如下：

物理链路 → 网卡芯片 → DMA 写入主机内存中的 RX ring buffer
→ 触发中断 / NAPI 轮询 → 驱动取包 → 内核协议栈 → 应用

当突发流量过大或CPU 处理不够及时时，RX ring 很快被占满。此时新到的数据包无法写入，网卡只能丢弃这些帧，并在驱动统计中增加 rx_missed_errors 或 rx_over_errors 计数。

出现这种情况的常见诱因包括：

本案例中，主要问题就是 RX ring 容量不足，无法抵御流量高峰，导致接收方向丢包。

通过 ethtool 调整网卡 ring buffer 大小，将 RX ring 从默认值扩展至 2048：

# 查看当前 ring buffer 大小
ethtool -g ens2f1  

# 调整 RX/TX ring 大小
ethtool -G ens2f1 rx 2048 tx 2048

调整后，监控告警消失，rx_missed_errors 计数不再增长。

RX ring buffer 就像是网卡与 CPU 之间的“仓库”或“水桶”：

这种方法等于把“水桶做大”，不会改变网卡带宽或 CPU 算力，但能大幅缓解瞬时突发造成的硬件层丢包。

虽然增大 ring buffer 能有效解决问题，但也有一些需要注意的点：

本次事件中，告警的根因是网卡接收队列（RX ring buffer）过小，在突发流量下被顶满，导致接收方向丢包。
通过增大 ring buffer，提升了网卡的抗突发能力，从而解决了告警问题。

这类问题也可以提醒我们：