服务:简历修改、面试辅导可以私戳~
在本文中,我们提出了一种加速解决方案,用于通用图像的局部文本驱动编辑任务,其中所需的编辑仅限于用户提供的掩码。我们的解决方案利用了文本到图像的潜在扩散模型(LDM),该模型通过在低维潜在空间中操作来加速扩散,并消除了在每个扩散步骤进行资源密集型CLIP梯度计算的需要。我们首先使LDM能够通过在每个步骤blend latent来执行局部图像编辑,类似于Blended Diffusion。接下来,我们提出了一种基于优化的解决方案,以解决LDM固有的无法准确重建图像的问题。最后,我们讨论了使用mask执行局部编辑的场景。
一、Background
绝大多数text-guidance文本引导方法都侧重于从头开始生成图像或在全局范围内操纵现有图像。尽管这种用例在实践中无处不在,但艺术家只对修改通用图像的一部分感兴趣,同时保留其余部分的本地编辑场景并没有得到那么多的关注。迄今为止,我们只知道三种明确解决局部编辑问题的方法:Blend Diffusion、GLIDE和DALL·E 2。其中,只有Blend Diffusion是完整公开的。
在这项工作中,我们利用LDM的优