2022预计要火的视觉语言理解和生成：一键生成图像标注，视觉问答，代码开源，官方 Demo 可玩

本文介绍了BLIP模型，这是一个用于统一视觉语言理解和生成的预训练模型。通过多任务学习，包括图像文本对比、匹配和语言建模损失，BLIP能在上传图片后生成相应的图像描述并支持视觉问答。论文提供了官方Demo，读者可亲自体验其功能。此外，还分享了相关实验结果和资源链接，供深入研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1-0

🍊 各位读者小伙伴、元宵节快乐
📆 最近更新：2022年2月11日
🍊 趣学深度学习、AI 前沿、技术专栏、敬请关注
🍊 本文为大家分享一项好玩的，预计2022会火的视觉语言理解和生成任务
🍊 AI 之路、道阻且长、感谢无数前辈巨佬的倾情奉献

📕 一键生成图像标注，视觉问答，官方 Demo 可玩

论文基础信息如下

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
BLIP：引导语言图像预训练，实现统一的视觉语言理解和生成
论文地址：https://arxiv.org/pdf/2201.12086.pdf
代码地址：https://github.com/salesforce/BLIP
试玩地址：https://huggingface.co/spaces/akhaliq/BLIP

📕 官方 Demo 试玩效果

视觉语言理解和生成、操作三部曲如下

上传心仪图像
点击下方的提交按钮
等待几秒，右侧即可生成对应的：图像内容描述

1-1

引导式：智能问答

1-3

不懂就问：我要是上传一张自己的图像，它会不会直接猜到我心里在想什么

1-4

论文中的一些官方示例，红色是问题，绿色是回答，人工智能 YYDS 了

1-2

📕 网络结构

多个编码器-解码器

2-1

模型架构

研究者将一个视觉 transformer 用作图像编码器，该编码器将输入图像分解为 patch，然后将这些 patch 编码为序列嵌入，并使用一个额外的[CLS] token 表征全局图像特征。相较于将预训练目标检测器用于视觉特征提取的方法，使用 ViT 在计算上更友好，并且已被最近很多方法所采用。

为了预训练一个具备理解和生成能力的统一模型，研究者提出了多任务模型 MED（mixture of encoder-decoder），它可以执行以下三种功能的任意一种：

单峰编码器
基于图像的文本编码器
基于图像的文本解码器

预训练目标

研究者在预训练过程中共同优化了三个目标，分别是两个基于理解的目标和一个基于生成的目标。每个图像文本对只需要一个前向传播通过计算更重（computational-heavier）的视觉 transformer，需要三个前向传播通过文本 transformer，其中激活不同的功能以计算以下 3 个损失，分别是：

图像文本对比损失（image-text contrastive loss, ITC），激活单峰编码器，旨在通过鼓励正图像文本对（而非负对）具有相似的表征来对齐视觉与文本 transformer 的特征空间；
图像文本匹配损失（image-text matching loss, ITM），激活基于图像的文本编码器，旨在学习捕获视觉与语言之间细粒度对齐的图像文本多模态表征；
语言建模损失（language modeling loss, LM），激活基于图像的文本解码器，旨在给定一张图像时生成文本描述。

为了在利用多任务学习的同时实现高效的预训练，文本编码器和解码器必须共享除自注意力（self-attention, SA）层之外的所有参数。具体地，编码器使用双向自注意力为当前输入 token 构建表征，同时解码器使用因果自注意力预测接下来的 token。

另外，嵌入层、交叉注意力（cross attention, CA）层和 FFN 在编码和解码任务之间功能类似，因此共享这些层可以提升训练效率并能从多任务学习中获益。

🍊 说到编码器、解码器，层共享、大家有兴趣可继续查阅我的这篇博文，希望能够帮助大家带来一些灵感
🍊【深度学习入门项目】给学妹换个风格，画风突变【❤️CVPR 2020 风格迁移之NICE-GAN❤️】
🍊 Nice -GAN环境搭建 ——模型训练有效教程——【一文读懂】

📕 实验：数据集指标PK

实验结果

研究者在 PyTorch 中实现模型，并在两个 16-GPU 节点上预训练模型。其中，图像 transformer 源于在 ImageNet 上预训练的 ViT，文本 transformer 源于 BERT_base。

主流数据集：COCO 、 Flickr
超分重建数据集 DIV2K & Flickr2K 下载地址【有效分享】

2-2

这个论文的工作感觉还是相当有意思，大家有兴趣，可下载原文进行详细研究，传送门地址如下

论文地址：https://arxiv.org/pdf/2201.12086.pdf
代码地址：https://github.com/salesforce/BLIP
试玩地址：https://huggingface.co/spaces/akhaliq/BLIP