[2025CVPR]TSAM:基于多模态提示的时序增强分割模型(Ref-AVS任务深度解析)

一、研究背景:Ref-AVS任务的挑战

在现实场景中,仅依赖单一模态(如视觉)往往难以准确分割动态目标。​Referring Audio-Visual Segmentation(Ref-AVS)​​ 通过融合音频、视觉和文本的多模态线索,实现了对复杂场景中目标对象的精准分割。然而,现有方法存在三大核心挑战:

  1. 单帧局限性​:传统模型(如SAM)仅处理单帧图像,缺乏跨帧时序建模能力。
  2. 多模态融合浅层化​:现有方法多采用简单特征拼接,难以捕捉音频-视觉-文本的深层交互。
  3. 零样本泛化不足​:对训练集中未出现的物体类别分割效果差。

本文提出的TSAM(Temporal SAM)​​ 通过时序建模分支和多模态提示机制,首次将SAM的能力扩展到动态Ref-AVS任务。


二、TSAM核心原理:时序增强与多模态融合

1. 模型架构

TSAM由三个核心模块组成:

  • 视觉主干网络​:冻结的SAM图像编码器(ViT-B)
  • 时序建模分支​:4个时空融合块(STFB)
  • 多模态提示模块​:稀疏提示(SPM)+密集提示(DPM)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清风AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值