论文:InstructPix2Pix: Learning to Follow Image Editing Instructions
类型:Image Editing\Text-to-Image
总结:提出了一种遵循文本指令的图像编辑算法,利用GPT-3与SD生成三元图像编辑训练数据,包括输入caption、编辑指令、输出caption,利用prompt-to-prompt来保证图像非编辑内容一致;
一、背景
我们提出了一种来自人类指令的图像编辑方法:给定输入图像和告诉模型该做什么的指令,我们的模型遵循这些指令来编辑图像。为了获得这个问题的训练数据,我们结合了两个大型预训练模型的知识——语言模型(GPT-3)和文本到图像模型(稳定扩散)——来生成一个大型的图像编辑示例数据集。我们的条件扩散模型InstructPix2Pix基于我们生成的数据进行训练,并在参考时间生成真实图像和用户编写的指令。由于它在正向传递中执行编辑,不需要对每个示例进行微调或反转,因此我们的模型可以在几秒钟内快速编辑图像。
1.1 Generative models for image editing
最近的工作已经使用预训练的文本到图像的扩散模型进行图像编辑。虽然一些文本到图像模型本身具有编辑图像的能力(例如,DALLE-2可以创建图像的变体、绘制区域和操纵CLIP嵌入[49]),但使用这些模型进行有针对性的编辑并非易事,因为在大多数情况下,它们并不能保证类似的文本提示会产生类似的图像。Hertz等人[17]的最新研究通过“Prompt-to-Prompt”方法解决了这一问题,该方法用于吸收生成的图像以获得类似的文本提示,从而可以对生成的图像进行单独编辑。我们在生成训练数据时使用了这种方法。
其他最近的工作在给定标题和用户绘制的mask情况下进行局部修复[5,49],生成从一小部分图像中学习到的特定对象或概念的新图像[13,53],或通过反转(和微调)单个图像进行编辑,随后用新的文本描述重新生成[28]。与这些方法相比,我们的模型只需要一张图像和一条如何编辑该图像的指令(即,不需要对任何图像进行完整的描述),并在正向过程中直接执行编辑,而不需要用户绘制的掩码、附加图像或每个示例的反转或微调。
Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation.
Imagic: Text-based real image editing with diffusion