多模态大模型(MLLM)训练篇 - Pre-training

多模态大模型(MLLM)训练篇 - Pre-training

VaquitaAI VaquitaAI 2024年08月28日 11:40 北京

【导读】MLLM 的训练范式大致可以划分为预训练阶段、指令微调阶段和对齐微调阶段。本文首先介绍预训练阶段(Pre-training),预训练目的是通过大量图文对将图片信息对齐到 LLM 的表征空间,即让 LLM 读懂视觉 Token。

一、预训练的目的

多模态大模型(MLLM)预训练的目的是对齐不同模态,并学习多模态世界知识。如 llava 第一阶段训练的目的是为了将图片信息映射到文本语义空间,让 LLM 能够理解图像内容。

注:本文介绍的是广义上的预训练,即完成不同模态之间的对齐,而非特指模型的全量训练。

二、预训练数据

2.1 数据格式

预训练阶段使用大规模文本配对数据,通常为图像、音频或视频的caption数据

图片

用于构建image-text-pair数据的简化模板

下图是从 Flickr8k 中随机采样的 16 个图像文本对:

图片

2.2 数据集

预训练语料库可以根据粒度分为粗粒度和细粒度图文对数据,表中总结了常用的预训练数据集。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

医疗AI强化曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值