这篇文章的一个立意很不错。它认为当前基于RL的扩散模型方法仅仅是关注于单张图某些指标的生成,例如美学质量、文生图的匹配程度等等,基本上没有人关注多视角图像的几何一致性。为此,他们提出了新的定制的RL微调框架,用于few-step的T2MV扩散模型生成高保真,同时多视角一致的图像。
摘要
T2MV——Text-to-multiview generation
意思是从单个文本质量生成相关的多个视角的图像。但是存在生成速度慢的问题,并且通过few-step的扩散模型加速(如consistency model,一致性模型)会牺牲保真度和多视角的一致性。为了解决这个问题,我们提出来了一个新的强化学习微调框架,用于few-step的文生多视角图像的扩散模型,并优化每个视角的保真度和多视角的一致性。
具体来说,我们将文生图在多个视角下的降噪过程作为单个统一的Markov决策过程,通过一个联合视角(多个视角)的reward目标来驱动多视角感知的策略优化。下一步,本文再引入ZMV-Sampling,一个测试时间的T2MV的采样技术,通过引入逆向降噪pass来强化视点和文本条件,以推理时间成本为代价改进T2MV的生成。为了将ZMV-Sampling的性能提升“内化”到基础采样策略中,文章中还提出了MV-ZigAL,这是一个新的策略优化策略,将ZMV-Sampling相比于标准采样上的reward优势作为策略更新的学习信号。最后,注意到,联合视角(多视角)的奖励目标会导致单视角的保真度(如图像质量)优化不足,但是呢单独优化单视角指标(如PSNR)又会忽略跨视角一致性(如多视角间的几何对齐),所以我们将T2MV扩散模型的强化学习微调(RL finetuning)重新定义为带约束的优化问题,在最大化单视角保真度(per-view fidelity)的前提下必须满足显式的联合视角一致性(joint-view constraint,如多视角间的几何或语义对齐),最终实现高效且平衡的策略更新。
-
高效:避免单独优化单视角或联合视角的冗余计算;
-
平衡:同时兼顾单视角质量和多视角一致性。
3 Method
3.1 Reinforcement Learning Finetuning for Few-Step Text-to-Multiview Diffusion Models
latent consistency models(LCM)的少数步采样虽然能加速,但是会损害生成图像之间的跨视角一致性。
为了解决这个问题,本文提出了新的强化学习微调框架,采用强调跨视角一致性的T2MV reward函数来优化少数步模型。
首先,本文还是将T2MV的降噪过程看成是一个多视图感知的MDP,这样就可以对公式(3)中单视图感知的MDP在多个views的生成上进行扩展了。这个新的表示在每一步中都采用了一个state-action对的集合V,这个和单视图的MDP过程是不一样的,并使用一个任意的T2MV reward函数计算所有视图(在相同的prompt下生成)的联合质量,相关定义见公式(8)。
公式(9)为优化目标,即最大化在文本提示词和生成的多张图像分布下T2MV reward的期望。
为了计算这个优化目标,作者提出来3个多视角感知的策略优化策略,分别是:MV-PG、MV-DPO和MV-RDL。
Multivew-aware policy gradient(MV-PG)
将原版的policy gradient算法应用到本文提出来的多视角感知的MDP框架中。MV-PG对集合V中的所有视角都用一个联合视角的reward函数Rmv来累计计算log似然梯度,见公式(10)。
Multiview-aware direct preference optimization (MV-DPO)
MV-DPO通过在多个视图集合中来推导成对的偏好,从而实现DPO的扩展。
Multiview-aware reward difference learning(MV-RDL)
也是将目标期望扩展到多视图。
T2MV reward function
采用HyperScore计算reward。输入多视角图像和相应的text prompts,输出四个评估结果。
专注于四个指标的评价:对齐质量、几何质量、纹理质量和整体质量。
训练时用整体质量,其他三个用于域外评估。我估计就是推理测试的时候评估用全部的。
新的reward函数能使得生成多视角几何一致的结果,同时确保生成内容与文本prompts一致。
3.2 Internalizing Zigzag-Induced Cross-View Consistency into Text-to-Multiview Diffusion
ZMV-Sampling
介绍Zigzag diffusion sampling:
“Zigzag 扩散采样” (Zigzag diffusion sampling) 的技术是一种改进版的文本到图像(T2I)生成方法。
首先,我们来看直译:
“Zigzag 扩散采样 [20],通过在单次“之字形”传递中,交错地执行去噪和近似反转步骤,来增强标准的文本到图像(T2I)采样过程。它利用去噪和反转步骤之间的“引导差距”(guidance gap),来放大文本条件的控制力。”
现在,我们用更通俗的语言来解释每个部分:
想象一下标准的AI绘画过程(比如Stable Diffusion)就像一个雕刻家从一块嘈杂的“大理石”(随机噪声)开始,一步步地凿掉多余部分(去噪),最终得到一座清晰的“雕像”(最终图像)。整个过程是单向的:从混乱到有序。
Zigzag 扩散采样 对这个过程做了个巧妙的改动。它不再是单向地“凿”,而是**“凿一步,退半步,再凿一步”**。
(1) 核心动作:交错的“去噪”和“反转” (Interleaving denoising and approximate inversion steps)
-
去噪 (Denoising): 这是标准步骤。AI根据你的文本提示(比如“一只猫”),将噪声图像变得更像“一只猫”一点。
-
近似反转 (Approximate Inversion): 这是 Zigzag 技术新增的关键步骤。在去噪之后,它会故意把刚刚变清晰一点的图像稍微“推回”到更嘈杂的状态。这个“反转”过程也不是随便加噪声,而是经过计算的、近似的逆过程。
这个“去噪 -> 反转 -> 去噪 -> 反转…”的过程就像走“之”字形(Zigzag)路线,而不是一条直线。整个图像生成就在这一次“之字形”的过程中完成。
(2) 核心机制:利用“引导差距”来放大文本控制力 (Leverages a guidance gap … to amplify text conditioning)
-
文本条件/文本引导 (Text Conditioning/Guidance): 指的是文本提示对图像生成过程的控制和引导强度。我们希望生成的图像严格遵循文本描述。
-
引导差距 (Guidance Gap): 这是最精妙的部分。
-
“去噪”步骤是在文本引导下进行的(“请画得更像一只猫”)。
-
而“反转”步骤可以被设计为在较弱的、甚至没有文本引导下进行(“把它变模糊一点”)。
-
这两步之间,一个在使劲把图像往“猫”的方向拉,另一个则在稍微往回拽。这种**“拉”和“拽”之间的张力或差异**,就是所谓的“引导差距”。
-
-
放大文本控制力 (Amplify text conditioning): 正是因为存在这个“引导差距”,模型为了克服“反转”步骤带来的干扰,就必须在下一次“去噪”时更加用力地、更加关注地去贴合文本提示。这种反复的“拉锯战”迫使模型最终生成的图像与文本描述的匹配度更高、更精确。
一言以蔽之:
Zigzag 采样是一种通过“进一步,退半步”的策略来让AI绘画模型更“听话”的技术。它在标准的“去噪生成”过程中,反复穿插“轻微加噪”的步骤。这种来回折腾的过程产生了一种“张力”,迫使模型更加关注和遵循你给出的文本提示,从而生成与描述更一致的图像。
这个技术的目标是为了解决一些AI绘画中常见的问题,比如模型忽略了提示词中的某些细节(“a red cube on a blue sphere”,结果红色和蓝色混了或者形状不对)。通过 Zigzag 采样,模型被“训练”得更加严谨,更能捕捉到这些细节。
ZMV-Sampling 利用引导差距进一步加强特定于视点的相机调节,从而提高视图之间的语义和几何一致性。
First-step structural alignment
在每个采样步骤都采用zigzag pass会导致生成细节变平滑。相反,这篇文章仅在第一步进行zigzag,同时还取得了不错的结果, 在保留细节的同时,增强了文图,跨视角的对齐能力。
起作用的原因就是,这个过程类似分级强化的过程,早些步骤建立基本的结构,例如物体轮廓、姿势、组成部分,后续步骤逐渐的增加细粒度的细节,如纹理、颜色等。通过仅仅在结构阶段强化条件引导,我们构建了一个增强的结构先验,同时不影响后续的细化。
Multiviwe-aware zigzag advantage learning(MV-ZigAL)
尽管zigzag pass的引入提升了质量,但是呢,它增加了两个额外的diffusion model预测步骤啊,这导致推理时间变长了。为了解决这个问题,最终作者提出了MV-ZigAL,在多视角感知MDP形式基础上的一个新的reward优势学习策略,来把ZMV-Sampling的优势整合到标准的T2MV采样策略中。具体来说,我们对每个文本指令c采样两个多视角的轨迹,包括在t=T时进行zigzag的ZMV-Sampling轨迹,和一个不带zigzag的标准采样轨迹,并对两条轨迹计算reward。最后计算目标函数,见公式(14)。
这样我推测推理的时候,就可以不用zigzag了,因为训练的时候设计了目标函数,来让标准的方法逼近加了zigzag的方法。从而提升了推理效率。
3.3 Multiview-Constrained Diffusion Policy Optimization with View-Level Feedback
Joint-view rewards vs. single-view rewards
第3.1节引入的策略能确保多视角一致,但是妨碍了提升每个视角的生成保真度。所以当前的方法没法做到单视图的质量和联合视图的一致之间的平衡。这段话仅仅提出一个问题,也就是不平衡的问题。
Reframing cross-view consistency as a constraint
为了让单视图和联合视图rewards的强度协调,本文将T2MV扩散模型的RL微调重新表述为一个受约束的策略优化问题。
因此,本文提出一个策略既能最大化单视图rewards的期望,又通过联合视图reward的期望来确保跨视图的约束,见公式(15)。
Lagrangian dual optimization
介绍公式(15)中受约束的策略优化问题的求解方法。这里主要是使用了拉格朗日对偶优化方法,见公式(16)。
最后将最新的优化目标整合到MV-ZigAL框架中,最终得到MVC-ZigAL,见公式(17)。