分布式微服务系统CLOSE_WAIT问题全链路排查指南

最新推荐文章于 2025-05-14 14:42:23 发布

TKang8912

最新推荐文章于 2025-05-14 14:42:23 发布

阅读量540

点赞数 3

CC 4.0 BY-SA版权

文章标签：分布式微服务 java 网络协议

本文链接：https://blog.csdn.net/TKang8912/article/details/145429754

在分布式系统运维中，TCP连接状态异常往往是系统健康的重要风向标。当生产环境频繁出现大量CLOSE_WAIT状态时，意味着系统存在资源泄漏风险。本文基于典型技术栈（Oracle 12c+ZooKeeper+Redis+JDK8），详细解析问题排查路径。

一、现象确认与初步分析

1.1 状态定位

# 快速统计各状态连接数
ss -ant | awk 'NR>1 {++s[$1]} END {for(k in s) print k,s[k]}'

# 定位具体CLOSE_WAIT连接
netstat -napo | grep CLOSE_WAIT | awk '{print $5}' | cut -d: -f1 | sort | uniq -c

1.2 特征分析

客户端型CLOSE_WAIT：多出现于服务主动发起请求的场景（如DB/Redis客户端）
服务端型CLOSE_WAIT：常见于HTTP服务未关闭连接（Nginx反向代理场景）

二、全链路排查路径

2.1 网络层排查（OS级）

# 查看文件描述符限制
cat /proc/sys/fs/file-nr

# 跟踪socket关闭事件
tcpdump -nn -i any 'tcp[tcpflags] & (tcp-fin) != 0'

2.2 应用层深度检测

2.2.1 JDK内置工具

# 获取线程堆栈
jstack -l <pid> > thread_dump.log

# 内存快照分析（谨慎使用）
jmap -dump:live,format=b,file=heap.hprof <pid>

2.2.2 连接池专项检查

以DBCP连接池为例，添加监控配置：

<bean id="dataSource" class="org.apache.commons.dbcp2.BasicDataSource">
    <property name

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

TKang8912

关注关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

服务器TIME_WAIT和CLOSE_WAIT区别及解决方案，TCP的三次握手四次挥手详解

诺浅的专栏

03-03

3770

服务器TIME_WAIT和CLOSE_WAIT区别及解决方案：http://itindex.net/detail/50213-%E6%9C%8D%E5%8A%A1%E5%99%A8-time_wait-close_wait具体的代码方面解决CLOSE_WAIT方案：http://blog.csdn.net/shootyou/article/details/6615051

线上巡查CLOSE_WAIT过多问题

weixin_57613965的博客

04-17

450

CLOSE_WAIT状态问题排查，apache common email问题解决，http泄漏

参与评论您还未登录，请先登录后发表或查看评论

出现大量close_wait

thinker

08-09

2872

近日遇到一个线上服务 socket 资源被不断打满的情况。通过各种工具分析线上问题,定位到问题代码。这里对该问题发现、修复过程进行一下复盘总结。先看两张图。一张图是服务正常时监控到的 socket 状态，另一张当然就是异常啦！图一：正常时监控图二：异常时监控从图中的表现情况来看，就是从 04:00 开始，socket 资源不断上涨，每个谷底时重启后恢复到正常值，然后继续不断上涨不释放，而且每次达到峰值的间隔时间越来越短。重启后，排查了日志，没有看到 panic ，..

TCP连接大量CLOSE_WAIT状态问题排查

04stone37

01-18

6249

CLOSE_WAIT产生原因　　close_wait是被动关闭连接是形成的，根据TCP状态机，服务器端收到客户端发送的FIN，TCP协议栈会自动发送ACK，链接进入close_wait状态。但如果服务器端不执行socket的close()操作，状态就不能由close_wait迁移到last_ack，则系统中会存在很多close_wait状态的连接，如下图所示：可能的原因如下：关闭...

CLOSE_WAIT状态详解与优化

最新发布

sre救赎之路

05-14

1298

CLOSE_WAIT 是 TCP 连接状态的一部分，通常表明通信的一方已经主动关闭了连接，而另一方尚未完成资源释放或未发送close()。以下从协议机制、常见原因以及如何排查分析的角度深入剖析。TCP 是一个面向连接的协议，关闭连接涉及四次握手（Four-way Handshake）过程：主动关闭方发送 FIN 包，进入 FIN_WAIT_1 状态。被动关闭方收到 FIN 包后，发送 ACK 包，进入 CLOSE_WAIT 状态。被动关闭方处理完数据后，发送 FIN 包，进入 LAST_ACK 状态。

遇到服务端大量连接出现CLOSE_WAIT的问题排查解决

有才而性缓，定属大才。有智而气和，斯为大智。

07-19

4447

链接:http://www.04007.cn/article/602.html 访问服务器接口报警，浏览器中请求接口发现http请求一直在响应中，最后都执行出错。登录服务器负载内存数据都正常，但请求半天没有执行结果就感觉发送的请求服务器没有收到一样。查看nginx日志发现很多499错误，499错误的原因是客户端关闭了连接：https://www.04007.cn/article/360.html。客户端为什么关闭了连接呢？查看服务器端的连接情况，发现统计如下： [online@USER-04 ng

close_wait问题排查

chensink123的博客

11-08

341

系统开发中,都需要通过TCP与外部系统进行对接，传输报文;TCP在 4次挥手过程中，有一方未进行 close断开操作，会导致大量close_wait 链接，占用系统资源。

线上大量CLOSE_WAIT原因排查

CoffeJoy

04-25

703

查看命令 netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 什么是CLOSE_WAIT 参考文档线上大量CLOSE_WAIT原因排查

线上大量CLOSE_WAIT的原因深入分析

2401_86353562的博客

07-18

1425

整个分析过程还是废了不少时间。最主要的是主观意识太强，觉得运行了一年没有出问题的为什么会突然出问题？因此一开始是质疑 SRE、DBA、各种基础设施出了问题（人总是先怀疑别人）。导致在这上面费了不少时间。理一下正确的分析思路：1、出现问题后，立马应该检查日志，确实日志没有发现问题；2、监控明确显示了socket不断增长，很明确立马应该使用 netstat 检查情况看看是哪个进程的锅；3、根据 netstat 的检查，使用 tcpdump 抓包分析一下为什么连接会被动断开（TCP知识非常重要）；

mysql close_wait_线上大量CLOSE_WAIT原因深入分析

weixin_39692623的博客

02-17

987

这一次重启真的无法解决问题了：一次 MySQL 主动关闭，导致服务出现大量 CLOSE_WAIT 的全流程排查过程。近日遇到一个线上服务 socket 资源被不断打满的情况。通过各种工具分析线上问题,定位到问题代码。这里对该问题发现、修复过程进行一下复盘总结。先看两张图。一张图是服务正常时监控到的 socket 状态，另一张当然就是异常啦！图一：正常时监控图二：异常时监控从图中的表现情况来看，就是...

记一次服务端大量CLOSE_WAIT排查

qq_36407469的博客

09-06

2999

某个线上tomcat服务运行正常，但是运行一段时间后就挂了，接口访问无响应呈现假死状态。查看后台日志，并无异常错误信息，重启后页面访问正常，但是持续不久又无响应了。怀疑是请求没有到达服务器。 1、查看log日志，排查并无报错信息。 2、排查是否为内存溢出导致，经查询后与内存无关。 3、查看服务器内存情况，内存充足。 4、netstat 命令查看端口占用情况 5、通过jstack -l 进程id >> jstack.log 查看进程所有线程状态打开netstat命令发现服务器的.

解析服务器出现大量 TIME_WAIT 和 CLOSE_WAIT 状态的原因及排查方法

weixin_73077810的博客

03-20

2485

本文详细解释了服务器出现大量 TIME_WAIT 和 CLOSE_WAIT 状态的原因，并从 HTTP 没有使用长连接、HTTP 长连接超时、HTTP 长连接的请求数量达到上限以及服务端代码问题等方面进行了分析。针对性地介绍了解决这些状态问题的方法和排查思路，帮助读者更好地理解和处理服务器连接状态异常的情况。

记录一次 CLOSE_WAIT 问题排查和梳理

weixin_34007879的博客

10-21

489

环境描述要说清楚事情，不介绍下背景和环境好像不行啊背景公司内部有一套RPC服务框架，java开发的，rpc协议用的redis 我所在的部门没java人手，但夸部门的数据交互又越来越多，一开始用http 接口性能不好，qps到2-3千的时候调用方经常发生各种curl 网络错误，导致拿不到数据，影响很不好所以后来自己拿 php+swoole 实现R...

云上机器CLOSE_WAIT过多的原因和解决办法

LQ的博客

07-19

5561

云上机器CLOSE_WAIT过多的原因和解决办法

网络连接存在大量time_wait和close_wait的原因以及解决方法

weixin_43398645的博客

07-04

853

四次挥手过程：第一次挥手：主机A（可以是客户端，也可以是服务器端），设置Sequence Number和Acknowledgment Number，向主机B发送一个FIN报文段；此时，主机A进入FIN_WAIT_1状态；这表示主机A没有数据要发送给主机B了。第二次挥手：主机B收到了主机A发送的FIN报文段，向主机A回一个ACK报文段，Acknowledgment Number为Sequence Number加1，主机A进入FIN_WAIT_2状态；

服务器大量tcp close_wait

u014203449的博客

10-11

1592

线上碰到服务器大量tcp连接处于close_wait状态，tomcat处于假死状态，即tomca在运行，但不能访问。因为tcp连接耗尽了。查询tcp连接数和状态：netstat -an|awk '/^tcp/{++S[$NF]}END{for (a in S)print a,S[a]}' 查询端口监听的tcp连接 netstat -anp |grep 8080 按tcp协议来说，客户端发送关闭连接消息，服务端会进入close_wait状态，服务端处理完后会自动进入last_ack状态，...

apache php closewait,apache-2.2 – 找出导致与Apache&PHP和Mysql的CLOSE_WAIT连接的原因

weixin_26806355的博客

03-12

163

我认为你有一个查询,锁定一个表/一些其他mysql连接尝试更新的行超过它应该更新.当发生这种情况时,所有传入的请求都会叠加在它后面,直到你达到最大连接数.由于请求进入并且没有收到响应(由于数据库上的查询被阻止),Apache端也发生了同样的情况. PHP与数据库有一个开放的连接;它已经提出了一个查询,但尚未收到回复. Apache正在等待答案,因此你可以期待它做什么.Apache似乎挂在外面(您的...

python close_wait_线上大量CLOSE_WAIT原因深入分析

weixin_39561577的博客

12-09

712

close_wait状态的产生原因及解决（转）

weixin_33737134的博客

07-05

2446

最近测试环境server由于需要与大量的后台server交互，今天突然发现有大量的close_wait产生，于是仔细研究了一下：如果我们的服务器程序处于CLOSE_WAIT状态的话，说明套接字是被动关闭的！因为如果是CLIENT端主动断掉当前连接的话，那么双方关闭这个TCP连接共需要四个packet： 1.Client -> FIN -> Server 2.Client &l...

### 排查步骤：TCP重传率高与传输延迟问题 #### 一、基础检查 1. **确认网络设备状态** - 检查服务器网卡状态：`ethtool <网卡名>`，关注`Errors`和`Dropped`字段 - 查看带宽使用率：`nload`或`iftop`，排除带宽占满问题 2. **检查TCP连接状态** ```bash ss -s | grep retrans # 查看全局TCP重传统计 ss -ti # 查看各连接RTT（round trip time）和重传次数 ``` 若特定连接`retrans`值异常，需针对性分析（如高延迟的远程地址） #### 二、网络层分析 3. **路由与链路质量测试** ```bash traceroute <目标IP> # 定位路由跳数异常 mtr --report <目标IP> # 持续监测丢包率 ``` 若中间节点丢包率>1%，需联系网络运营商排查 4. **抓包分析重传原因** ```bash tcpdump -i <网卡> -w retrans.pcap 'tcp[tcpflags] & (tcp-syn|tcp-ack) != 0' ``` 使用Wireshark分析`retrans.pcap`，关注： - 重复ACK（快速重传触发） - 超时重传（RTO超过200ms） - 乱序包比例（`tcptrace`工具可量化） #### 三、系统配置检查 5. **内核参数调优** 检查关键参数（引用[3]相关配置）： ```bash sysctl net.ipv4.tcp_retries2 # 默认15次重传（建议5-8） sysctl net.ipv4.tcp_slow_start_after_idle # 建议设为0（禁用慢启动） ``` 可添加至`/etc/sysctl.conf`： ```conf net.ipv4.tcp_retries2 = 5 net.ipv4.tcp_slow_start_after_idle = 0 ``` 6. **防火墙与端口限制** - 检查`netst

04-10

<think>好的，我现在需要帮助用户解决TCP重传率高和传输延迟的问题。用户提到了网络设备状态检查、TCP连接状态分析、路由质量测试、抓包分析以及内核参数调优这几个方面。首先，我应该回忆一下TCP协议的基本机制，比如三次握手、拥塞控制、重传机制等。然后结合用户提供的引用内容，特别是引用[2]中提到的抓包分析和不同场景下的排查方法，引用[4]中的路由优先级，以及引用[1]中提到的TCP的开销和延迟因素。首先，网络设备状态检查。用户可能遇到的是交换机或网卡的问题，比如丢包。引用[2]提到如果随机高丢包，可能需要检查交换机网口或光纤。我应该建议检查网络设备的错误计数器，比如CRC错误、丢包率等，还有网卡是否有降速或双工模式问题。然后是TCP连接状态分析。使用ss或netstat命令查看连接状态，特别是是否存在大量TIME_WAIT或CLOSE_WAIT，这可能意味着应用层处理不当，导致资源未释放。引用[1]提到TCP的重试机制和流量控制，如果应用层没有正确关闭连接，可能导致这些问题。路由质量测试方面，引用[4]提到路由优先级，所以需要检查路由配置是否正确，是否存在次优路径。使用traceroute或mtr工具测试路径中的延迟和丢包，确定问题节点。如果有问题，可能需要调整路由策略或联系ISP。抓包分析是关键。引用[2]中的例子，用户可能需要用tcpdump或Wireshark抓包，分析重传的类型。如果是快速重传，可能由偶发包引起；超时重传则说明网络质量差。同时要检查RTT和窗口大小，确认是否因拥塞导致延迟。内核参数调优部分，需要调整TCP缓冲区大小，比如net.ipv4.tcp_rmem和wmem，以及启用SACK和调整拥塞控制算法。引用[1]提到的拥塞控制机制，比如CUBIC或BBR，可能对延迟和吞吐量有帮助。此外，TIME_WAIT状态的回收参数也可以调整，但需谨慎。可能用户没有提到的点还包括应用层优化，比如减少小包传输，使用持久连接等。另外，检查中间设备如防火墙或负载均衡器的配置，这些也可能导致额外的延迟或丢包。最后，需要综合这些步骤，形成一个系统化的排查流程，从底层网络设备到上层应用，逐步排除可能性，找到根本原因。同时，引用相关文献，比如引用[2]中的抓包分析和引用[4]的路由优先级，来支持建议的可行性。</think>### TCP重传率高与传输延迟问题排查指南 --- #### 一、网络设备状态检查 1. **交换机/路由器端口检查** - 查看端口错误计数器：`ifconfig`或`ethtool -S ethX`检查`CRC errors`、`dropped packets`、`overruns` - 检测网卡协商状态：`ethtool ethX`确认双工模式是否为全双工，速率是否匹配 - 案例：某云服务器因网卡降速至100M半双工导致RTT暴增至200ms+[^2] 2. **硬件链路检测** - 使用`mtr -n --tcp -P 端口目标IP`测试链路质量 - 光纤接口清洁度检查（常见于机房跳线污染导致误码） --- #### 二、TCP连接状态分析 ```bash ss -nti | grep -B1 "retrans" # 查看重传统计 netstat -s | grep -E 'segments retransmitted|timeouts' # 全局重传统计 ``` - **关键指标解析**： - `retrans`/`retransmit`：累计重传次数 - `srtt`：平滑往返时间（正常值：局域网<1ms，跨地域<100ms） - `cwnd`：拥塞窗口大小（突发流量时可能收缩） --- #### 三、路由质量测试 $$ RTT_{total} = \sum_{i=1}^{n}(propagation\_delay_i + queuing\_delay_i) $$ 1. **路径探测**： ```bash traceroute -T -p 目标端口目标IP # TCP模式跟踪 tcpping 目标IP -p 端口 # 持续测量RTT ``` 2. **路由策略验证**： - 检查ECMP配置：`ip route show cache`查看流量分布 - BGP路由震荡检测：`show ip bgp neighbors | include updates`（企业级路由器） --- #### 四、抓包分析（Wireshark/Tcpdump） ```bash tcpdump -i eth0 -s 0 -w capture.pcap 'tcp port 目标端口' ``` **诊断要点**： 1. **重传类型识别**： - 快速重传（3个重复ACK）：`[TCP Dup ACK]`标记 - 超时重传（RTO）：无前置Dup ACK的直接重传 2. **时序分析**： - `Expert Info`中的`Retransmissions`统计 - `IO Graph`绘制吞吐量与重传时间序列 3. **窗口动态**： - 检查`Window size`字段是否频繁归零 - 识别`ZeroWindow`通告（接收方缓存满） --- #### 五、内核参数调优 ```bash sysctl -w \ net.ipv4.tcp_retries2=8 \ # 减少持久重传次数 net.ipv4.tcp_sack=1 \ # 启用选择性确认 net.ipv4.tcp_frto=2 \ # 启用F-RTO检测虚假重传 net.ipv4.tcp_adv_win_scale=2 # 调整接收缓存计算公式 ``` **推荐调整参数**： | 参数 | 默认值 | 建议值 | 作用 | |------|--------|--------|------| | tcp_rmem | 4096 87380 6291456 | 8192 16777216 33554432 | 接收缓冲区 | | tcp_wmem | 4096 16384 4194304 | 8192 16777216 33554432 | 发送缓冲区 | | tcp_slow_start_after_idle | 1 | 0 | 禁用空闲后慢启动 | --- #### 六、深度优化方案 1. **拥塞算法切换**： ```bash sysctl -w net.ipv4.tcp_congestion_control=bbr # 改用BBR算法 ``` - BBR算法在丢包率>2%时比CUBIC提升吞吐量30%+[^1] 2. **应用层适配**： ```python # 设置socket参数示例 sock.setsockopt(socket.IPPROTO_TCP, socket.TCP_NODELAY, 1) # 禁用Nagle sock.setsockopt(socket.SOL_SOCKET, socket.SO_SNDBUF, 1024*1024) # 调整发送缓冲区 ``` ---