论文题目:Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature Mimicking
论文地址:https://arxiv.org/abs/2303.05475
代码地址:GitHub - Alpha-VL/ConvMAE: ConvMAE: Masked Convolution Meets Masked Autoencoders(好像并未更新为MR-MAE模型)
MR-MAE是在ConvMAE基础上提出的后续文章
ConvMAE相关信息如下:
论文题目:ConvMAE: Masked Convolution Meets Masked Autoencoders
论文地址:https://arxiv.org/abs/2205.03892
代码地址:GitHub - Alpha-VL/ConvMAE: ConvMAE: Masked Convolution Meets Masked Autoencoders
摘要
掩模自编码器(MAE)是一种流行的大规模视觉表征预训练方法。然而,MAE仅在解码器之后重建低级RGB信号,缺乏对编码器高级语义的监督,因此存在次优学习表征和较长的预训练时间。为了缓解这一问题,以前的方法只是用预训练图像(DINO)或图像语言(CLIP)对比学习的编码特征替换75%的掩码标记的像素重建目标。与这些研究不同的是,我们提出了先模仿后重建的掩膜自编码器,称为MR-MAE,它在预训练过程中不受干扰地共同学习高级和低级表征。对于高级语义,MR-MAE使用来自编码器的超过25%的可见标记的模拟损失来捕获在CLIP和DINO中编码的预训练模式。对于低级结构,我们继承MAE中的重建损失来预测解码器后75%掩码