SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models

最新推荐文章于 2025-07-29 21:31:10 发布

Vicky__3021

最新推荐文章于 2025-07-29 21:31:10 发布

阅读量1.4k

点赞数 8

CC 4.0 BY-SA版权

分类专栏：每日论文文章标签：语言模型人工智能计算机视觉多模态大模型

本文链接：https://blog.csdn.net/qq_51771374/article/details/140295450

SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models

目前基于指令的图像编辑方法，如InstructPix2Pix，由于在扩散模型中依赖于简单的CLIP文本编码器，在复杂场景下往往不能产生令人满意的结果。
为了纠正这一点，本文介绍了SmartEdit，这是一种基于指令的图像编辑的新方法，它利用多模态大型语言模型(mllm)来增强其理解和推理能力。然而，在需要复杂推理的情况下，这些元素的直接集成仍然面临挑战。
为了解决这种情况，我们提出BIM (Bidirectional Interaction Module，双向交互模块)，实现输入图像与MLLM（多模态大语言模型）输出之间全面的双向信息交互。在训练过程中，我们首先结合感知数据来提高扩散模型的感知和理解能力。随后，我们证明了少量复杂指令编辑数据可以有效地激发SmartEdit对更复杂指令的编辑能力。我们进一步构建了一个新的评估数据集，Reason-Edit，专门为复杂的基于指令的图像编辑量身定制。该评估数据集的定量和定性结果表明，我们的SmartEdit超越了以前的方法，为复杂的基于指令的图像编辑的实际应用铺平了道路。

图1所示。我们提出了基于指令的图像编辑模型SmartEdit，它利用多模态大语言模型(Multimodal Large Language Models, mllm)来增强基于指令的编辑方法的理解和推理能力。通过专门的设计，我们的SmartEdit能够处理复杂的理解(包含各种对象属性的指令，如位置、相对大小、颜色、镜子内外)和推理场景。

Introduction

近年来，由于扩散模型的发展，文本到图像的合成[8,13,23,26,27,29]取得了重大进展。这些方法使得生成的图像不仅与自然语言描述一致，而且与人类的感知和偏好一致，标志着该领域的重大飞跃。以InstructPix2Pix为代表的基于指令的图像编辑方法[1,36]利用预训练的文本到图像扩散模型作为先验。这使得用户可以方便，毫不费力地修改图像，通过自然语言指令为普通用户。
虽然现有的基于指令的图像编辑方法可以有效地处理简单的指令，但在处理复杂场景时往往存在不足，这需要模型具有更强大的理解和推理能力。如图1所示，有两种常见的复杂场景类型。第一种情况是，原始图像包含多个对象，指令通过某些属性(如位置、相对大小、颜色、在镜像内外)只修改其中一个对象。另一种是需要世界知识来识别要编辑的对象(例如可以显示时间的对象)。我们将这两种类型分别定义为复杂理解场景和复杂推理场景。处理这两种场景对于实际的指令编辑是至关重要的，但是现有的基于指令的图像编辑方法可能在这些场景中失败(如图2所示)。在本文中，我们试图找出现有的基于指令的图像编辑方法在这些场景中失败的原因，并试图解决这些场景中的挑战。
(根据 Figure 1 所示，SmartEdit 可以处理两种复杂场景：

原始图像包含多个对象，指令通过某些属性修改其中一个对象：左边/中间/右边的苹果换成橙子：这张图片中包含多个苹果，指令指定了要修改的是左边/中间/右边的苹果，并且要将它们换成橙子。左边/右边的动物换成白色狐狸：这张图片中包含多个动物，指令指定了要修改的是左边/右边的动物，并且要将它们换成白色狐狸。更大/更小的熊换成狼：这张图片中包含多个熊，指令指定了要修改的是更大/更小的熊，并且要将它们换成狼。红色/绿色的苹果换成桃子：这张图片中包含多个苹果，指令指定了要修改的是红色/绿色的苹果，并且要将它们换成桃子。镜像中的狗换成老虎：这张图片中包含一个狗和一个镜像，指令指定了要将镜像中的狗换成老虎。请将通常被称为人类朋友的动物换成老虎：这张图片中包含一个动物，指令需要利用世界知识来识别这个动物，并将其换成老虎。
需要世界知识来识别要编辑的对象：请去掉可以显示时间的物体：这张图片中包含多个物体，指令需要利用世界知识来识别可以显示时间的物体，并将其去掉。请将通常被称为人类朋友的动物换成老虎：这张图片中包含一个动物，指令需要利用世界知识来识别这个动物，并将其换成老虎。

)
现有的基于指令的图像编辑方法在这些场景中失败的第一个原因是，它们通常依赖于扩散模型(例如，Stable diffusion)中的简单CLIP文本编码器[25]来处理指令。在这种情况下，这些模型努力1)通过指令理解和推理，2)整合图像来理解指令。为了解决这些限制，我们将多模态大型语言模型(mllm)(例如，LLaV A)[22,39]引入到基于指令的编辑模型中。我们的方法SmartEdit联合优化了mllm和扩散模型，利用mllm强大的推理能力来完成基于指令的图像编辑任务。
虽然用mllm代替扩散模型中的CLIP编码器可以缓解一些问题，但当涉及到需要复杂理解和推理的示例时，这种方法仍然不足。这是因为要编辑的输入图像(原始图像)通过直接的连接被整合到稳定扩散模型的UNet中，并通过交叉注意操作与MLLM输出进一步交互。在这个设置中，图像特征作为查询，MLLM输出作为键和值。这意味着MLLM输出单方面调制并与图像特征交互，从而影响结果。为了解决这个问题，我们进一步提出了双向交互模块(BIM)。该模块重用了LLaVA视觉编码器从输入图像中提取的图像信息。它还促进了该图像与MLLM输出之间的全面双向信息交互，使模型在复杂场景中表现更好。
导致现有的基于指令的编辑方法失败的第二个原因是缺乏具体的数据。当仅对编辑数据集进行训练时，例如在Instructpix2pix[1]和MagicBrush[36]中使用的数据集，SmartEdit还难以处理需要复杂推理和理解的场景。这是因为SmartEdit还没有接触到这些场景中的数据。一种直接的方法是生成大量类似于这些场景的成对数据。然而，这种方法过于昂贵，因为为这些场景生成数据的成本很高。
在本文中，我们发现有两个关键来弥补具体编辑数据的不足。一是增强UNet的感知能力[28]，二是用一些高质量的例子来激发这些场景下的模型能力。相应地，我们1)将感知相关数据(例如，分割)纳入模型的训练中。2)用复杂的指令合成一些高质量的配对数据来微调我们的SmartEdit(类似于LISA[19])。这样，SmartEdit不仅减少了复杂场景下对配对数据的依赖，而且有效地激发了其处理这些场景的能力。
看一下LISA这篇论文
通过模型设计和数据利用策略，SmartEdit可以理解复杂的指令，超越了以前的指令编辑方法所能做到的范围。为了更好地评估基于指令的图像编辑方法的理解和推理能力，我们收集了Reason-Edit数据集，该数据集共包含219对图像-文本对。请注意，在Reason-Edit数据集和少量高质量的合成训练数据对之间没有重叠。基于Reason-Edit数据集，对现有的基于指令的图像编辑方法进行了综合评价。在ReasonEdit数据集上的定量和定性结果都表明，SmartEdit明显优于以前基于指令的图像编辑方法。
综上所述，我们的贡献如下:

我们分析并重点研究了基于指令的图像编辑方法在更复杂指令下的性能。在过去的研究中，这些复杂的情况往往被忽视，也很少被探索。
我们利用MLLMs来更好地理解指令。为了进一步提高性能，我们提出了一个双向交互模块来促进文本和图像特征之间的信息交互。
我们提出了一种新的数据集利用策略，以提高SmartEdit在复杂场景下的性能。在使用传统编辑数据的基础上，引入感知相关数据，增强UNet在扩散过程中的感知能力。此外，我们还添加了少量的合成编辑数据，以进一步激发模型的推理能力。
评估数据集Reason-Edit专门用于评估复杂场景下基于指令的图像编辑任务的性能。对Reason-Edit的定性和定量结果都证明了SmartEdit的优越性。

图2。对于更复杂的说明或场景，InstructPix2Pix无法遵循说明。

Related Work

Image Editing with Diffusion Models. 图像编辑与扩散模型

预训练的文本到图像扩散模型[8,13,23,26,27,29]可以有力地辅助图像编辑任务。基于指令的图像编辑任务[1,4,11,12,16,17,32,36,38]需要用户提供一条指令，该指令将原始图像转换为与给定指令匹配的新设计图像。有些方法可以通过使用无调优方法来实现这一点。例如，Prompt-to-Prompt[12]建议通过比较原始输入标题和修改后的标题来修改交叉注意图。MasaCtrl[4]将扩散模型中已有的自注意转化为相互的自注意，可以帮助从源图像中查询相关的局部内容和纹理以保持一致性。此外，由于配对图像指令编辑数据集的稀缺，开创性的作品InstructPix2Pix[1]引入了通过微调GPT-3[2]和稳定扩散的Prompt-to-Prompt创建的大规模视觉语言图像编辑数据集，并进一步微调UNet[28]，通过提供简单的指令即可编辑图像。为了增强InstructPix2Pix对实景图像的编辑效果，MagicBrush[36]进一步提供了一个大规模的人工标注数据集，用于指导实景图像的编辑。
最近的作品InstructDiffusion[11]也采用了InstructPix2Pix的网络设计，以联合训练的方式统一视觉任务。通过利用多个不同的数据集，它可以处理各种视觉任务，包括理解任务(如分割和关键点检测)和生成任务(如编辑和增强)。与InstructDiffusion相比，我们主要关注的是基于指令的图像编辑领域，特别是复杂的理解和推理场景。在这些场景中，InstructDiffusion通常生成较差的结果。

LLM with Diffusion Models. 大型语言模型和扩散模型

独特的开源LLaMA[6,31]在大型语言模型(Large Language Models, llm)的帮助下显著提高了视觉任务的性能。诸如LLaV A和MiniGPT-4之类的开创性作品通过指令调优改进了图像-文本对齐。虽然许多基于mllm的研究[7,22,24,39]已经证明了它们在各种任务中的强大能力，主要是那些依赖于文本生成的任务(例如，人机交互，复杂推理，科学问答等)，GILL[18]是mllm和扩散模型之间的桥梁。它学习用llm处理图像，并能够根据输入文本生成连贯的图像。SEED[9]提出了一种创新的图像标记器，使LLM能够同时处理和生成图像和文本。SEED2[10]通过将生成嵌入与unCLIP-SD的图像嵌入对齐，进一步改进了标记器，从而可以更好地保留丰富的视觉语义并重建更真实的图像。Emu[30]可以被描述为一个多模态通才，用下一个标记预测目标进行训练。CM3Leon[35]提出了一种能够执行文本到图像和图像到文本生成的多模态语言模型。它采用了CM3多模态架构，该架构对不同的教学风格数据进行了微调，并利用了一种适应于纯文本语言模型的训练方法。

Preliminary. 准备

基于指令的图像编辑的目标是根据指令 $c_T$ 对输入图像 $x$ 进行特定的修改，从而得到目标图像 $y$ 。基于潜在扩散的InstructPix2Pix是该领域的开创性工作。对于目标图像 $y$ 和编码器 $E\mathcal{E}$ ，扩散过程在编码潜函数 $z=E(y)z=\mathcal{E}(y)$ 中引入噪声，产生有噪声潜函数 $z_t$ ，随着时间步长 $\in T$ ，噪声电平逐渐增大。给定图像条件 $c_x$ 和文本指令条件 $c_T$ ，其中 $cx=E(x)c_x=\mathcal{E}(x)$ ，然后训练UNet $ϵδ\epsilon_\delta$ 来预测添加到噪声潜函数 $z_t$ 中的噪声。通过直接连接 $c_x$ 和 $z_t$