【自监督学习】对比学习（Contrastive Learning）介绍

姚路遥遥

已于 2024-10-22 22:45:51 修改

阅读量1.4w

点赞数 13

CC 4.0 BY-SA版权

文章标签：自监督学习对比学习深度学习计算机视觉无监督学习

于 2023-03-15 00:44:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Roaddd/article/details/129542649

文章介绍了自监督学习的重要性，特别是在数据量有限的情况下，模型通过大量无标注数据预训练能提升性能。自监督学习包括生成式和对比式方法，对比学习强调在特征空间中使相似实例靠近，不相似实例远离。代理任务和目标函数是对比学习的核心，常见的代理任务有个体判别、序列预测和多模态多视角，而InfoNCE等损失函数则用于优化模型学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 前言

1.1. 为什么要进行自监督学习

我们知道，标注数据总是有限的，就算ImageNet已经很大，但是很难更大，那么它的天花板就摆在那，就是有限的数据总量。NLP领域目前的经验应该是：自监督预训练使用的数据量越大，模型越复杂，那么模型能够吸收的知识越多，对下游任务效果来说越好。这可能是自从Bert出现以来，一再被反复证明的真理，如果它不是唯一的真理，那也肯定是最大的真理。图像领域如果技术想要有质的提升，可能也必须得走这条路，就是充分使用越来越大量的无标注数据，使用越来越复杂的模型，采用自监督预训练模式，来从中吸取图像本身的先验知识分布，在下游任务中通过Fine-tuning，来把预训练过程习得的知识，迁移给并提升下游任务的效果。

1.2. 什么是自监督学习

利用代理任务（pretext task）从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。

1.3. 自监督学习分类

生成式的方法（Generative Methods）：这类方法以自编码器为代表，主要关注pixel label的loss。即在自编码器中对数据样本编码成特征再解码重构，这类型的任务难度相对比较高，要求像素级的重构，中间的图像编码必须包含很多细节信息举例来说，这里认为重构的效果比较好则说明模型学到了比较好的特征表达，而重构的效果通过pixel label的loss来衡量。如VAE、GAN。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。