对比学习论文解读|MR-MAE：用特征模拟增强屏蔽自动编码器

本文链接：https://blog.csdn.net/sinat_38225756/article/details/132159194

论文题目：Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature Mimicking

论文地址：https://arxiv.org/abs/2303.05475

代码地址：GitHub - Alpha-VL/ConvMAE: ConvMAE: Masked Convolution Meets Masked Autoencoders（好像并未更新为MR-MAE模型）

MR-MAE是在ConvMAE基础上提出的后续文章

ConvMAE相关信息如下：

论文题目：ConvMAE: Masked Convolution Meets Masked Autoencoders

论文地址：https://arxiv.org/abs/2205.03892

代码地址：GitHub - Alpha-VL/ConvMAE: ConvMAE: Masked Convolution Meets Masked Autoencoders

摘要

掩模自编码器(MAE)是一种流行的大规模视觉表征预训练方法。然而，MAE仅在解码器之后重建低级RGB信号，缺乏对编码器高级语义的监督，因此存在次优学习表征和较长的预训练时间。为了缓解这一问题，以前的方法只是用预训练图像(DINO)或图像语言(CLIP)对比学习的编码特征替换75%的掩码标记的像素重建目标。与这些研究不同的是，我们提出了先模仿后重建的掩膜自编码器，称为MR-MAE，它在预训练过程中不受干扰地共同学习高级和低级表征。对于高级语义，MR-MAE使用来自编码器的超过25%的可见标记的模拟损失来捕获在CLIP和DINO中编码的预训练模式。对于低级结构，我们继承MAE中的重建损失来预测解码器后75%掩码