ICCV 2025 | MobileViCLIP：快55倍！南大等提出首个高效“视频-文本模型，让多模态AI在手机可运行！

最新推荐文章于 2025-09-06 09:26:50 发布

转载最新推荐文章于 2025-09-06 09:26:50 发布 · 122 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247632945&idx=1&sn=0bb02ebde8548f2314c63e178d5a3aef&chksm=97bc1096048999a590c73a5053f09ee395ad395c1205dd05e96f28fa928b27392bfe18c0c2dd&scene=126&sessionid=0

文章标签：

#人工智能

关注公众号，发现CV技术之美

视频-文本预训练模型（如Video-CLIP）在视频搜索、分类和理解等任务上取得了巨大成功，但这些强大的模型几乎无一例外地基于庞大而高延迟的Vision Transformer（ViT）架构，使其难以在手机等移动设备上部署和运行。当我们在手机上享受流畅的短视频体验时，背后复杂的AI理解和检索任务却始终被“云端”高昂的计算成本所限制。

为了打破这一瓶颈，让强大的视频-文本理解能力真正走向终端，来自南京大学、蚂蚁集团和上海人工智能实验室的研究者们，共同开发了一款名为 MobileViCLIP 的高效视频-文本模型。该模型巧妙地在速度和性能之间取得了前所未有的平衡，在移动设备上的推理速度比现有SOTA模型快数十倍，同时保持了极具竞争力的零样本检索和分类能力，为在移动端部署强大的多模态AI应用探索出了可行的道路。

论文基本信息

论文标题： MobileViCLIP: An Efficient Video-Text Model for Mobile Devices

作者： Min Yang, Zihan Jia, Zhilin Dai, 等

机构： 南京大学，蚂蚁集团，上海人工智能实验室

论文地址： https://arxiv.org/abs/2508.07312

代码仓库： https://github.com/MCG-NJU/MobileViCLIP

录用会议： ICCV 2025

核心思想：从高效图像模型到高效视频模型

从头开始设计一个高效的视频-文本模型是极其困难的。研究者们另辟蹊径，提出了一条更聪明的路径：从一个已经非常高效的图像-文本模型（MobileCLIP）出发，通过最小化、最高效的改造，将其“升级”为视频模型。

如上图所示，整个改造过程的核心是为MobileCLIP的图像编码器注入时序建模能力，而这种注入是通过两个巧妙的模块化设计完成的：

1. 时空RepMixer (Spatiotemporal RepMixer)

MobileCLIP中的RepMixer模块原本只在空间维度上混合信息。研究者通过在其中加入一个1D深度可分离卷积来沿时间维度对特征进行建模。最关键的是，这个新增的1D卷积层采用了结构重参数化（structural reparameterization）技术，这意味着在推理时，它可以被数学上等效地融合进前面的卷积层中，从而在不增加任何推理耗时和参数量的情况下，为模型赋予了宝贵的时序信息捕捉能力。

2. 时空注意力 (Spatiotemporal Attention)

对于模型中的注意力模块，改造同样轻巧。研究者仅仅通过添加可学习的时序位置编码（Temporal Positional Embeddings, TPE），就使得原本只处理空间信息的注意力机制能够理解帧的顺序和长距离时间关系，从而升级为时空注意力。

通过这两个“微创手术”，MobileViCLIP成功地将一个高效的图像编码器转化为了一个高效的视频编码器，并随后在千万级的大规模视频-文本数据集InternVid上进行微调，使其具备了强大的视频理解能力。

实验结果：速度与精度的极致平衡

MobileViCLIP的性能表现堪称惊艳，完美地诠释了什么叫“又快又好”。

速度与性能对比

下图直观地展示了MobileViCLIP在速度-性能权衡上的巨大优势。在移动设备（iPad Air 2020）上，MobileViCLIP-Small的推理速度是强大的InternVideo2-L14的55.4倍，是InternVideo2-S14的6.7倍。在速度大幅领先的同时，其在MSR-VTT视频检索任务上的R@1分数与InternVideo2-L14相当，并显著优于InternVideo2-S14。