AIGC实战——多模态模型Flamingo

0. 前言

我们已经学习了文本生成图像模型 DALL.E 2,在本节中,我们将探索另一种多模态模型 Flamingo,它可以根据给定文本和视觉数据流生成文本。FlamingoDeepMind2022 年提出的一类视觉语言模型 (Visual Language Model, VLM),它是预训练的纯视觉模型和纯语言模型之间的桥梁。在本节中,我们将介绍 Flamingo 模型的架构,并将其与所学习的文本生成图像模型进行比较。

1. Flamingo 架构

Flamingo 的整体架构如下图所示。接下来,我们将对该模型的核心组件,视觉编码器、Perceiver 重采样器和语言模式进行介绍,以了解 Flamingo 的核心思想。

Flamingo架构

2. 视觉编码器

Flami

评论 62
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

盼小辉丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值