【生成模型之二十】一种无需微调遵循文本指令的图像编辑算法—InstructPix2Pix

论文:InstructPix2Pix: Learning to Follow Image Editing Instructions

类型:Image Editing\Text-to-Image

总结:提出了一种遵循文本指令的图像编辑算法,利用GPT-3与SD生成三元图像编辑训练数据,包括输入caption、编辑指令、输出caption,利用prompt-to-prompt来保证图像非编辑内容一致;

一、背景

我们提出了一种来自人类指令的图像编辑方法:给定输入图像和告诉模型该做什么的指令,我们的模型遵循这些指令来编辑图像。为了获得这个问题的训练数据,我们结合了两个大型预训练模型的知识——语言模型(GPT-3)和文本到图像模型(稳定扩散)——来生成一个大型的图像编辑示例数据集。我们的条件扩散模型InstructPix2Pix基于我们生成的数据进行训练,并在参考时间生成真实图像和用户编写的指令。由于它在正向传递中执行编辑,不需要对每个示例进行微调或反转,因此我们的模型可以在几秒钟内快速编辑图像。

1.1 Generative models for image editing

最近的工作已经使用预训练的文本到图像的扩散模型进行图像编辑。虽然一些文本到图像模型本身具有编辑图像的能力(例如,DALLE-2可以创建图像的变体、绘制区域和操纵CLIP嵌入[49]),但使用这些模型进行有针对性的编辑并非易事,因为在大多数情况下,它们并不能保证类似的文本提示会产生类似的图像。Hertz等人[17]的最新研究通过“Prompt-to-Prompt”方法解决了这一问题,该方法用于吸收生成的图像以获得类似的文本提示,从而可以对生成的图像进行单独编辑。我们在生成训练数据时使用了这种方法。

其他最近的工作在给定标题和用户绘制的mask情况下进行局部修复[5,49],生成从一小部分图像中学习到的特定对象或概念的新图像[13,53],或通过反转(和微调)单个图像进行编辑,随后用新的文本描述重新生成[28]。与这些方法相比,我们的模型只需要一张图像和一条如何编辑该图像的指令(即,不需要对任何图像进行完整的描述),并在正向过程中直接执行编辑,而不需要用户绘制的掩码、附加图像或每个示例的反转或微调。

Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation.

Imagic: Text-based real image editing with diffusion

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jeremy_lf

你的鼓励是我的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值