新型掩码自编码器 AdaMAE,自适应采样

AdaMAE是一种改进的MaskedAutoencoder,它引入了端到端训练的自适应掩码策略,能根据语义上下文采样更多高信息token。通过在SSv2和Kinetics-400数据集上的实验,AdaMAE展示其在动作分类任务中的优越性能,同时降低了内存需求和加速了预训练过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

出品人:Towhee 技术团队 王翔宇、顾梦佳

Masked Autoencoders (MAEs) 通过从可见数据的 token 重建带掩码的输入数据,学习图像、文本、音频、视频等的通用表征。当前的视频 MAE 方法依赖于基于随机补丁、通道、或基于视频帧的屏蔽策略来选择这些 token。AdaMAE 在此基础上提出一种端到端可训练的自适应掩码策略。它从高时空信息区域采样更多的 token,实现了遮盖率高达 95% 的 token,从而降低内存需求并加速预训练。通过在公开视频数据集 Something-Something v2 (SSv2) 上进行消融研究,AdaMAE 证明了该自适应采样方法的有效性。该方法在数据集 SSv2 和 Kinetics-400 上的动作分类任务中均获得了最先进的精度。

 

AdaMAE

AdaMAE 提出自适应掩码策略,利用辅助采样网络根据语义上下文对可见 token 进行采样。它会基于采样网络估计的分类分布对可见 token 进行采样,并使用 ViT 编码器-解码器架构重建缺失的 token。由于采样过程是不可微分的,AdaMAE 通过最大化期望值重建损失来优化模型。这种自适应采样过程会从高时空信息区域采样更多的 token,而从低信息或冗余区域采样更少的 token。

相关资料:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值