解决gateway使用nacos重启报503 Service Unavailable问题

本文详细描述了在使用Spring Cloud Gateway作为网关、Nacos作为注册中心时遇到的服务重启后偶尔出现503 Service Unavailable的问题。问题原因是Ribbon的缓存更新机制,它依赖于定时任务,默认每30秒更新一次。解决方案是通过自定义ServerListUpdater监听Nacos服务变更事件,实现实时更新Ribbon的缓存,避免了不必要的延迟。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题描述

项目使用spring cloud gateway作为网关,nacos作为微服务注册中心,项目搭建好后正常访问都没问题,但是有个很烦人的小瑕疵:

  • 当某个微服务重启后,通过网关调用这个服务时有时会出现503 Service Unavailable(服务不可用)的错误,但过了一会儿又可以访问了,这个等待时间有时很长有时很短,甚至有时候还不会出现
  • 导致每次重启某个项目都要顺便启动gateway项目才能保证立即可以访问,时间长了感觉好累,想彻底研究下为什么,并彻底解决

接下来介绍我在解决整个过程的思路,如果没兴趣,可以直接跳到最后的最终解决方案

gateway感知其它服务上下线

首先在某个微服务上下线时,gateway的控制台可以立即看到有对应的输出

某服务下线gateway输出

某服务上线gateway输出

这说明nacos提供了这种监听功能,在注册中心服务列表发生时可以第一时间通知客户端,而在我们的依赖spring-cloud-starter-alibaba-nacos-discovery中显然已经帮我们实现了这个监听

所以也就说明gateway是可以立即感知其它服务的上下线事件,但问题是明明感知到某个服务的上线,那为什么会出现503 Service Unavailable的错误,而且上面的输出有时出现了很久,但调用依然是503 Service Unavailable,对应的某服务明明下线,这是应该是503 Service Unavailable状态,可有时确会有一定时间的500错误

ribbon

为了调查事情的真相,我打开了gateway的debug日志模式,找到了503的罪魁祸首

503的控制台输出


在503错误输出前,有一行这样的日志Zone aware logic disabled or there is only one zone,而报这个信息的包就是ribbon-loadbalancer,也就是gateway默认所使用的负载均衡器

我的gateway配置文件路由方面设置如下

routes:
        - id: auth
          uri: lb://demo-auth
          predicates:
            - Path=/auth/**
          filters:
            - StripPrefix=1

其中在uri这一行,使用了lb:// ,代表使用了gateway的ribbon负载均衡功能,官方文档说明如下
Note that this example also demonstrates (optional) Spring Cloud Netflix Ribbon load-balancing (defined the lb prefix on the destination URI)

ribbon再调用时首先会获取所有服务列表(ip和端口信息),然后根据负载均衡策略调用其中一个服务,选择服务的代码如下

package com.netflix.loadbalancer;
public class ZoneAwareLoadBalancer<T extends Server> extends DynamicServerListLoadBalancer<T> {
    // 选择服务的方法
    public Server chooseServer(Object key) {
            if (!ENABLED.get() || getLoadBalancerStats().getAvailableZones().size() <= 1) {
                logger.debug("Zone aware logic disabled or there is only one zone");
                return super.chooseServer(key);
            }
    ...     

这就是上面的Zone aware logic..这行日志的出处,经调试发现在getLoadBalancerStats().getAvailableZones()这一步返回的服务是空列表,说明这里没有存储任何服务信息,所以才导致最终的503 Service Unavailable
继续跟进去看getAvailableZones的代码,如下

public class LoadBalancerStats implements IClientConfigAware {
    // 一个缓存所有服务的map
    volatile Map<String, List<? extends Server>> upServerListZoneMap = new ConcurrentHas
### Gateway Service Unavailable 503 错误分析 当使用 Nacos 作为注册中心并配置 gateway 进行负载均衡 (lb) 路由时,可能会遇到 `503 Service Unavailable` 的错误。此现象表明网关未能成功找到可用的服务实例来处理请求。 #### 原因解析 1. **Ribbon被弃用** 自 Spring Cloud 2020 版本起 Ribbon 已经被官方宣布废弃,并且 Alibaba 在后续版本中的 Nacos 移除了对 Ribbon 支持的相关 jar 文件[^3]。这使得基于旧版依赖于 Ribbon 实现的 lb 功能失效,进而影响到了服务发现机制的有效运作。 2. **LoadBalancer 替代方案引入** 随着 Ribbon 的淘汰,Spring Cloud 推荐采用 spring-cloud-loadbalancer 来替代它完成客户端侧负载均衡的任务。然而,在迁移期间如果未正确调整配置,则可能导致新组件间协作出现问题,从而引发诸如 503 状态码这样的异常情况发生[^4]。 3. **缓存和服务健康检查不同步** 即使网关能够及时接收到其他微服务的状态变更通知(即上下线),但如果存在本地缓存或健康检测策略设置不当的话,也可能造成实际运行状况与预期不符的情况出现。例如,某些情况下即使目标服务已经离线一段时间内仍可能返回不一致的结果给调用方[^2]。 ### 解决措施建议 为了有效应对上述提到的各种潜在因素所引起的 503 故障问题,可以考虑采取以下几个方面的改进: - 更新至最新稳定版本:确保使用的 Spring Cloud 及其子项目的版本是最新的稳定发布版本,以便获得更好的兼容性和性能表现; - 更换为 spring-cloud-loadbalancer:按照官方文档指导逐步替换原有的 Ribbon 组件为 spring-cloud-loadbalancer,注意修改相应的应用程序属性文件以及编码逻辑以适应 API 变化; - 完善服务治理规则:针对每一个参与集群部署的应用定义合理的生命周期管理政策,比如启动超时、失败重试次数等参数设定,同时加强对于各节点存活状态监测力度,确保任何时刻都能够提供准确无误的信息反馈给上游消费者; - 清理不必要的中间件残留数据:如果有条件的话尝试清理掉之前遗留下来的关于 Ribbon 或者其他过期插件的数据记录,防止它们干扰当前系统的正常运转流程。 ```yaml # application.yml 示例片段 spring: cloud: loadbalancer: retry: enabled: true # 开启重试功能 ```
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值