上文: 【大模型】萌新也能一文弄懂!! -- 连接图像文本的大模型CLIP的前世今生【二】
因工作比较忙,终于有空写完这一篇最后的 CLIP系列分享 博文, 这个坑没有也在春节前填完。 这一CLIP系列 只是单纯的科普,让大家能简明扼要的明白CLIP的原理&前世今生。萌新也能一文弄懂。
更复杂的细节, 以及 后续的研究发展,会以其他博文的形式展示给大家, 大家一同进步学习。
下面是 CLIP [Contrastive Language-Image Pretraining]- 多模态大模型介绍分享的 第二篇博文。
【1】CLIP (本文) 大模型的综述 & 产生的时代背景。
【2】CLIP 模型的结构,以及 相关的前置知识 (Transformer & Attention & ViT等)
【3】CLIP 的效果 & 展望,以及相关的一些衍生和学术工作等。
上篇博文我们已经了解了 CLIP 的 具体结构,了解了 CLIP 是一个双塔模型,由 文本塔的 Bert,和 图片塔的 ViT 构成。 原理都是基于传统的 Transformer 做到。
这篇论文将大概介绍一下CLIP的实际训练方法 & 效果。 以及未来的展望,和部分后续工作,方便大家去了解。
1. CLIP 训练
我们现在已经知道了 CLIP 的结构 还有它的工作原理, 现在来看看 OpenAI 的人员是 怎么进行训练和调参的。
1.1 训练数据
用于CLIP 训练的数据如下:
数据名称 |
数据量 |
介绍 |
MS-COCO |
10万 |
Microsoft Common Objects in Context, 之前的分享有具体介绍【大模型】萌新也能一文弄懂!! -- 连接图像文本的大模型CLIP的前世今生【一】-CSDN博客 |
YFCC |
1200万 |
Yahoo Flickr Creative Commons 100 Million, 之前的分享有具体介绍 |