新型掩码自编码器 AdaMAE，自适应采样

Zilliz Planet

于 2023-02-15 16:40:42 发布

阅读量521

点赞数

CC 4.0 BY-SA版权

分类专栏： Towhee Milvus 文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_44839084/article/details/129046126

Milvus 同时被 2 个专栏收录

218 篇文章

订阅专栏

Towhee

48 篇文章

订阅专栏

AdaMAE是一种改进的MaskedAutoencoder，它引入了端到端训练的自适应掩码策略，能根据语义上下文采样更多高信息token。通过在SSv2和Kinetics-400数据集上的实验，AdaMAE展示其在动作分类任务中的优越性能，同时降低了内存需求和加速了预训练过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

出品人：Towhee 技术团队王翔宇、顾梦佳

Masked Autoencoders (MAEs) 通过从可见数据的 token 重建带掩码的输入数据，学习图像、文本、音频、视频等的通用表征。当前的视频 MAE 方法依赖于基于随机补丁、通道、或基于视频帧的屏蔽策略来选择这些 token。AdaMAE 在此基础上提出一种端到端可训练的自适应掩码策略。它从高时空信息区域采样更多的 token，实现了遮盖率高达 95% 的 token，从而降低内存需求并加速预训练。通过在公开视频数据集 Something-Something v2 (SSv2) 上进行消融研究，AdaMAE 证明了该自适应采样方法的有效性。该方法在数据集 SSv2 和 Kinetics-400 上的动作分类任务中均获得了最先进的精度。

AdaMAE

AdaMAE 提出自适应掩码策略，利用辅助采样网络根据语义上下文对可见 token 进行采样。它会基于采样网络估计的分类分布对可见 token 进行采样，并使用 ViT 编码器-解码器架构重建缺失的 token。由于采样过程是不可微分的，AdaMAE 通过最大化期望值重建损失来优化模型。这种自适应采样过程会从高时空信息区域采样更多的 token，而从低信息或冗余区域采样更少的 token。

相关资料：