关注公众号,发现CV技术之美
视频-文本预训练模型(如Video-CLIP)在视频搜索、分类和理解等任务上取得了巨大成功,但这些强大的模型几乎无一例外地基于庞大而高延迟的Vision Transformer(ViT)架构,使其难以在手机等移动设备上部署和运行。当我们在手机上享受流畅的短视频体验时,背后复杂的AI理解和检索任务却始终被“云端”高昂的计算成本所限制。
为了打破这一瓶颈,让强大的视频-文本理解能力真正走向终端,来自南京大学、蚂蚁集团和上海人工智能实验室的研究者们,共同开发了一款名为 MobileViCLIP 的高效视频-文本模型。该模型巧妙地在速度和性能之间取得了前所未有的平衡,在移动设备上的推理速度比现有SOTA模型快数十倍,同时保持了极具竞争力的零样本检索和分类能力,为在移动端部署强大的多模态AI应用探索出了可行的道路。
论文基本信息

论文标题: MobileViCLIP: An Efficient Video-Text Model for Mobile Devices
作者: Min Yang, Zihan Jia, Zhilin Dai, 等
机构: 南京大学,蚂蚁集团,上海人工智能实验室
论文地址: https://arxiv.org/abs/2508.07312
代码仓库: https://github.com/MCG-NJU/MobileViCLIP
录用会议: ICCV 2025
核心思想:从高效图像模型到高效视频模型
从头开始设计一个高效的视频-文本模型是极其困难的。研究者们另辟蹊径,提出了一条更聪明的路径:从一个已经非常高效的图像-文本模型(MobileCLIP)出发,通过最小化、最高效的改造,将其“升级”为视频模型。

如上图所示,整个改造过程的核心是为MobileCLIP的图像编码器注入时序建模能力,而这种注入是通过两个巧妙的模块化设计完成的:
1. 时空RepMixer (Spatiotemporal RepMixer)
MobileCLIP中的RepMixer模块原本只在空间维度上混合信息。研究者通过在其中加入一个1D深度可分离卷积来沿时间维度对特征进行建模。最关键的是,这个新增的1D卷积层采用了结构重参数化(structural reparameterization)技术,这意味着在推理时,它可以被数学上等效地融合进前面的卷积层中,从而在不增加任何推理耗时和参数量的情况下,为模型赋予了宝贵的时序信息捕捉能力。

2. 时空注意力 (Spatiotemporal Attention)
对于模型中的注意力模块,改造同样轻巧。研究者仅仅通过添加可学习的时序位置编码(Temporal Positional Embeddings, TPE),就使得原本只处理空间信息的注意力机制能够理解帧的顺序和长距离时间关系,从而升级为时空注意力。

通过这两个“微创手术”,MobileViCLIP成功地将一个高效的图像编码器转化为了一个高效的视频编码器,并随后在千万级的大规模视频-文本数据集InternVid上进行微调,使其具备了强大的视频理解能力。
实验结果:速度与精度的极致平衡
MobileViCLIP的性能表现堪称惊艳,完美地诠释了什么叫“又快又好”。
速度与性能对比
下图直观地展示了MobileViCLIP在速度-性能权衡上的巨大优势。在移动设备(iPad Air 2020)上,MobileViCLIP-Small的推理速度是强大的InternVideo2-L14的55.4倍,是InternVideo2-S14的6.7倍。在速度大幅领先的同时,其在MSR-VTT视频检索任务上的R@1分数与InternVideo2-L14相当,并显著优于InternVideo2-S14。

零样本与微调任务表现
在多个视频-文本检索和零样本动作识别任务上,MobileViCLIP均表现出色,以极低的延迟实现了与重量级模型相媲美甚至更优的性能。
零样本视频检索结果:

零样本动作识别结果:

此外,该模型作为特征提取器,在视频高光检测、时序动作定位等更复杂的下游任务中,同样展现了强大的能力。


消融研究
消融实验证明,论文提出的时空RepMixer和时空注意力两个模块对于模型的性能提升都至关重要。

总结与贡献
MobileViCLIP的出现,成功地填补了高效端侧视频-文本预训练模型的空白。其核心贡献在于:
提出高效的视频-文本架构: 通过对高效图像-文本模型进行巧妙的、可重参数化的时序改造,首次实现了一款专为移动设备设计的高性能视频-文本模型。
实现极致的速能均衡: 在移动设备上实现了数十倍于现有SOTA模型的推理速度,同时保持了极具竞争力的零样本理解和检索能力。
推动端侧多模态AI发展: 该工作为在手机、AR/VR眼镜等移动设备上部署更强大的视频理解、视频搜索、人机交互等多模态AI应用扫清了关键的性能障碍。
CV君认为,MobileViCLIP是模型效率优化领域的一个杰出范例。它所展示的“从高效图像模型出发,通过可重参数化进行时序升级”的设计哲学,对于未来开发更多轻量化、多模态的端侧AI模型具有重要的指导意义。
了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉
投稿寻求报道请发邮件至:amos@52cv.net
欢迎点赞、分享、收藏、评论。
END
欢迎加入「MLLM」交流群👇备注:LLM