【生成模型之二十】一种无需微调遵循文本指令的图像编辑算法—InstructPix2Pix

最新推荐文章于 2025-05-24 15:12:50 发布

原创

最新推荐文章于 2025-05-24 15:12:50 发布 · 814 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉 #图像编辑 #文生图 #stable diffusion

论文：InstructPix2Pix: Learning to Follow Image Editing Instructions

类型：Image Editing\Text-to-Image

总结：提出了一种遵循文本指令的图像编辑算法，利用GPT-3与SD生成三元图像编辑训练数据，包括输入caption、编辑指令、输出caption，利用prompt-to-prompt来保证图像非编辑内容一致；

一、背景

我们提出了一种来自人类指令的图像编辑方法：给定输入图像和告诉模型该做什么的指令，我们的模型遵循这些指令来编辑图像。为了获得这个问题的训练数据，我们结合了两个大型预训练模型的知识——语言模型（GPT-3）和文本到图像模型（稳定扩散）——来生成一个大型的图像编辑示例数据集。我们的条件扩散模型InstructPix2Pix基于我们生成的数据进行训练，并在参考时间生成真实图像和用户编写的指令。由于它在正向传递中执行编辑，不需要对每个示例进行微调或反转，因此我们的模型可以在几秒钟内快速编辑图像。

1.1 Generative models for image editing

最近的工作已经使用预训练的文本到图像的扩散模型进行图像编辑。虽然一些文本到图像模型本身具有编辑图像的能力（例如，DALLE-2可以创建图像的变体、绘制区域和操纵CLIP嵌入[49]），但使用这些模型进行有针对性的编辑并非易事，因为在大多数情况下，它们并不能保证类似的文本提示会产生类似的图像。Hertz等人[17]的最新研究通过“Prompt-to-Prompt”方法解决了这一问题，该方法用于吸收生成的图像以获得类似的文本提示，从而可以对生成的图像进行单独编辑。我们在生成训练数据时使用了这种方法。

其他最近的工作在给定标题和用户绘制的mask情况下进行局部修复[5,49]，生成从一小部分图像中学习到的特定对象或概念的新图像[13,53]，或通过反转（和微调）单个图像进行编辑，随后用新的文本描述重新生成[28]。与这些方法相比，我们的模型只需要一张图像和一条如何编辑该图像的指令（即，不需要对任何图像进行完整的描述），并在正向过程中直接执行编辑，而不需要用户绘制的掩码、附加图像或每个示例的反转或微调。

Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation.

Imagic: Text-based real image editing with diffusion