【大模型】萌新也能一文弄懂!! -- 连接图像文本的大模型CLIP的前世今生【三】

上文: ​​​​​​【大模型】萌新也能一文弄懂!! -- 连接图像文本的大模型CLIP的前世今生【二】

因工作比较忙,终于有空写完这一篇最后的 CLIP系列分享 博文, 这个坑没有也在春节前填完。 这一CLIP系列 只是单纯的科普,让大家能简明扼要的明白CLIP的原理&前世今生。萌新也能一文弄懂。

更复杂的细节, 以及 后续的研究发展,会以其他博文的形式展示给大家, 大家一同进步学习。

下面是 CLIP [Contrastive Language-Image Pretraining]- 多模态大模型介绍分享的 第二篇博文。

         【1】CLIP (本文)  大模型的综述 &  产生的时代背景。

          【2】CLIP 模型的结构,以及 相关的前置知识 (Transformer & Attention & ViT等)

          【3】CLIP 的效果 & 展望,以及相关的一些衍生和学术工作等。

上篇博文我们已经了解了 CLIP 的 具体结构,了解了 CLIP 是一个双塔模型,由 文本塔的 Bert,和 图片塔的 ViT 构成。 原理都是基于传统的 Transformer 做到。

这篇论文将大概介绍一下CLIP的实际训练方法 & 效果。 以及未来的展望,和部分后续工作,方便大家去了解。

1. CLIP 训练

我们现在已经知道了 CLIP 的结构 还有它的工作原理, 现在来看看 OpenAI 的人员是 怎么进行训练和调参的。

1.1 训练数据

用于CLIP 训练的数据如下: 

数据名称

数据量

介绍

MS-COCO

10万

Microsoft Common Objects in Context, 之前的分享有具体介绍【大模型】萌新也能一文弄懂!! -- 连接图像文本的大模型CLIP的前世今生【一】-CSDN博客

YFCC

1200万

Yahoo Flickr Creative Commons 100 Million,   之前的分享有具体介绍

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值