一、研究背景:Ref-AVS任务的挑战
在现实场景中,仅依赖单一模态(如视觉)往往难以准确分割动态目标。Referring Audio-Visual Segmentation(Ref-AVS) 通过融合音频、视觉和文本的多模态线索,实现了对复杂场景中目标对象的精准分割。然而,现有方法存在三大核心挑战:
- 单帧局限性:传统模型(如SAM)仅处理单帧图像,缺乏跨帧时序建模能力。
- 多模态融合浅层化:现有方法多采用简单特征拼接,难以捕捉音频-视觉-文本的深层交互。
- 零样本泛化不足:对训练集中未出现的物体类别分割效果差。
本文提出的TSAM(Temporal SAM) 通过时序建模分支和多模态提示机制,首次将SAM的能力扩展到动态Ref-AVS任务。
二、TSAM核心原理:时序增强与多模态融合
1. 模型架构
TSAM由三个核心模块组成:
- 视觉主干网络:冻结的SAM图像编码器(ViT-B)
- 时序建模分支:4个时空融合块(STFB)
- 多模态提示模块:稀疏提示(SPM)+密集提示(DPM)