音视频开发之旅(94)-多模态之Blip-2

目录

1. 背景和问题

2. BLIP-2模型结构

3.Q-Former

4. 实验效果

5. 资料

一、背景与问题

前面我们在学习clip时,知道它是通过大量的图像-文本对进行预训练,做到对不同图像zero-shot,但还是从给定的图-文对中进行相似度计算来选择,如果用于训练的图-文对没有相关的内容,得到相似度最高的文本描述也可能和图片不相符。是否可以兼顾理解任务的高效性以及生成任务的灵活性,输出更符合图像的文本描述呐?

我们可能会想到把 预训练的图像编码器(VIT)是否可以和具有涌现能力的大语言模型(eg:llama、gpt)相结合进行训练或者微调,直接提升多模态在视觉知识推理、视觉问答以及图像到文本的生成上的能力。但这种端到端重新预训练的模式需要大量的数据以及负责的模型结构,训练成本高;如果基于LLM进行finetune微调,直接将单模态的模型加入到多模态的联合训练 可能会出现灾难性遗忘的问题。

另外用于训练多模态的图像-文本对,大多数都是从网上获取,这些数据往往存在一定噪声,图文不一致的情况,是否可以过滤掉噪声数据,从而提升模型准确性呐?

blip和blip2系列从这些问题出发解决,创新性的提出并实现

1、Captioner和Filter 文本生成器和文本过滤器,减少图像-文本对噪声,提升数据的质量

2、将单模态的预训练模型参数进行冻结,训练轻量化的Q-former将图像和文本进行对齐,降低多模态的训练成本

二、模型结构

本论文作者提出了一种通用且高效的Vision-Language Pre-training(VPL) 方法:基于现成的预训练好的视觉和语言模型,并对它们进行冻结,设计一个中间转换对齐器,对不同图像和文本进行对齐,降低计算量且避免灾难性遗忘。这里的关键是如何对不同模态进行对齐,由于大语言模型 LLM 在训练的时候并没有见过图像,简单的冻结参数无法达到预期的效果,作者提出了 Querying Transformer(Q-Former),并且使用 two-stage pre-training 的方式来训练 Q-Former

图片

如上图所示,blip2的预训练包含两个阶段

  1. 视觉-语言表征学习(Vision-and-Language Representaion Learning),使Q-Former学习 与文本相关的视觉表征

  2. 视觉到文本的生成学习(Vision-to-Language Generative Learning),使Q-Former输出的视觉表征能够被LLM理解

三、 Q-Former

3.1 阶段 1: Representation Learning(表征学习)

图片

第一个阶段 ,使一组

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值