【2025强化学习最新文章阅读】Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning-CSDN博客

本文链接：https://blog.csdn.net/qq_38327353/article/details/149207116

这篇文章的一个立意很不错。它认为当前基于RL的扩散模型方法仅仅是关注于单张图某些指标的生成，例如美学质量、文生图的匹配程度等等，基本上没有人关注多视角图像的几何一致性。为此，他们提出了新的定制的RL微调框架，用于few-step的T2MV扩散模型生成高保真，同时多视角一致的图像。

摘要

T2MV——Text-to-multiview generation

意思是从单个文本质量生成相关的多个视角的图像。但是存在生成速度慢的问题，并且通过few-step的扩散模型加速（如consistency model，一致性模型）会牺牲保真度和多视角的一致性。为了解决这个问题，我们提出来了一个新的强化学习微调框架，用于few-step的文生多视角图像的扩散模型，并优化每个视角的保真度和多视角的一致性。

具体来说，我们将文生图在多个视角下的降噪过程作为单个统一的Markov决策过程，通过一个联合视角（多个视角）的reward目标来驱动多视角感知的策略优化。下一步，本文再引入ZMV-Sampling，一个测试时间的T2MV的采样技术，通过引入逆向降噪pass来强化视点和文本条件，以推理时间成本为代价改进T2MV的生成。为了将ZMV-Sampling的性能提升“内化”到基础采样策略中，文章中还提出了MV-ZigAL，这是一个新的策略优化策略，将ZMV-Sampling相比于标准采样上的reward优势作为策略更新的学习信号。最后，注意到，联合视角（多视角）的奖励目标会导致单视角的保真度（如图像质量）优化不足，但是呢单独优化单视角指标（如PSNR）又会忽略跨视角一致性（如多视角间的几何对齐），所以我们将T2MV扩散模型的强化学习微调（RL finetuning）重新定义为带约束的优化问题，在最大化单视角保真度（per-view fidelity）的前提下必须满足显式的联合视角一致性（joint-view constraint，如多视角间的几何或语义对齐），最终实现高效且平衡的策略更新。

高效：避免单独优化单视角或联合视角的冗余计算；
平衡：同时兼顾单视角质量和多视角一致性。

3 Method

3.1 Reinforcement Learning Finetuning for Few-Step Text-to-Multiview Diffusion Models

latent consistency models（LCM）的少数步采样虽然能加速，但是会损害生成图像之间的跨视角一致性。

为了解决这个问题，本文提出了新的强化学习微调框架，采用强调跨视角一致性的T2MV reward函数来优化少数步模型。

首先，本文还是将T2MV的降噪过程看成是一个多视图感知的MDP，这样就可以对公式（3）中单视图感知的MDP在多个views的生成上进行扩展了。这个新的表示在每一步中都采用了一个state-action对的集合V，这个和单视图的MDP过程是不一样的，并使用一个任意的T2MV reward函数计算所有视图（在相同的prompt下生成）的联合质量，相关定义见公式（8）。

公式（9）为优化目标，即最大化在文本提示词和生成的多张图像分布下T2MV reward的期望。

为了计算这个优化目标，作者提出来3个多视角感知的策略优化策略，分别是：MV-PG、MV-DPO和MV-RDL。

Multivew-aware policy gradient（MV-PG）

将原版的policy gradient算法应用到本文提出来的多视角感知的MDP框架中。MV-PG对集合V中的所有视角都用一个联合视角的reward函数Rmv来累计计算log似然梯度，见公式（10）。

Multiview-aware direct preference optimization (MV-DPO)

MV-DPO通过在多个视图集合中来推导成对的偏好，从而实现DPO的扩展。

Multiview-aware reward difference learning（MV-RDL）

也是将目标期望扩展到多视图。

T2MV reward function

采用HyperScore计算reward。输入多视角图像和相应的text prompts，输出四个评估结果。

专注于四个指标的评价：对齐质量、几何质量、纹理质量和整体质量。

训练时用整体质量，其他三个用于域外评估。我估计就是推理测试的时候评估用全部的。

新的reward函数能使得生成多视角几何一致的结果，同时确保生成内容与文本prompts一致。

3.2 Internalizing Zigzag-Induced Cross-View Consistency into Text-to-Multiview Diffusion

ZMV-Sampling

介绍Zigzag diffusion sampling：

“Zigzag 扩散采样” (Zigzag diffusion sampling) 的技术是一种改进版的文本到图像（T2I）生成方法。

首先，我们来看直译：

“Zigzag 扩散采样 [20]，通过在单次“之字形”传递中，交错地执行去噪和近似反转步骤，来增强标准的文本到图像（T2I）采样过程。它利用去噪和反转步骤之间的“引导差距”（guidance gap），来放大文本条件的控制力。”

现在，我们用更通俗的语言来解释每个部分：

想象一下标准的AI绘画过程（比如Stable Diffusion）就像一个雕刻家从一块嘈杂的“大理石”（随机噪声）开始，一步步地凿掉多余部分（去噪），最终得到一座清晰的“雕像”（最终图像）。整个过程是单向的：从混乱到有序。

Zigzag 扩散采样 对这个过程做了个巧妙的改动。它不再是单向地“凿”，而是**“凿一步，退半步，再凿一步”**。

（1）核心动作：交错的“去噪”和“反转” (Interleaving denoising and approximate inversion steps)

去噪 (Denoising): 这是标准步骤。AI根据你的文本提示（比如“一只猫”），将噪声图像变得更像“一只猫”一点。
近似反转 (Approximate Inversion): 这是 Zigzag 技术新增的关键步骤。在去噪之后，它会故意把刚刚变清晰一点的图像稍微“推回”到更嘈杂的状态。这个“反转”过程也不是随便加噪声，而是经过计算的、近似的逆过程。

这个“去噪 -> 反转 -> 去噪 -> 反转…”的过程就像走“之”字形（Zigzag）路线，而不是一条直线。整个图像生成就在这一次“之字形”的过程中完成。

（2）核心机制：利用“引导差距”来放大文本控制力 (Leverages a guidance gap … to amplify text conditioning)

文本条件/文本引导 (Text Conditioning/Guidance): 指的是文本提示对图像生成过程的控制和引导强度。我们希望生成的图像严格遵循文本描述。
引导差距 (Guidance Gap): 这是最精妙的部分。
- “去噪”步骤是在文本引导下进行的（“请画得更像一只猫”）。
- 而“反转”步骤可以被设计为在较弱的、甚至没有文本引导下进行（“把它变模糊一点”）。
- 这两步之间，一个在使劲把图像往“猫”的方向拉，另一个则在稍微往回拽。这种**“拉”和“拽”之间的张力或差异**，就是所谓的“引导差距”。
放大文本控制力 (Amplify text conditioning): 正是因为存在这个“引导差距”，模型为了克服“反转”步骤带来的干扰，就必须在下一次“去噪”时更加用力地、更加关注地去贴合文本提示。这种反复的“拉锯战”迫使模型最终生成的图像与文本描述的匹配度更高、更精确。

一言以蔽之：

Zigzag 采样是一种通过“进一步，退半步”的策略来让AI绘画模型更“听话”的技术。它在标准的“去噪生成”过程中，反复穿插“轻微加噪”的步骤。这种来回折腾的过程产生了一种“张力”，迫使模型更加关注和遵循你给出的文本提示，从而生成与描述更一致的图像。

这个技术的目标是为了解决一些AI绘画中常见的问题，比如模型忽略了提示词中的某些细节（“a red cube on a blue sphere”，结果红色和蓝色混了或者形状不对）。通过 Zigzag 采样，模型被“训练”得更加严谨，更能捕捉到这些细节。

ZMV-Sampling 利用引导差距进一步加强特定于视点的相机调节，从而提高视图之间的语义和几何一致性。

First-step structural alignment

在每个采样步骤都采用zigzag pass会导致生成细节变平滑。相反，这篇文章仅在第一步进行zigzag，同时还取得了不错的结果，在保留细节的同时，增强了文图，跨视角的对齐能力。

起作用的原因就是，这个过程类似分级强化的过程，早些步骤建立基本的结构，例如物体轮廓、姿势、组成部分，后续步骤逐渐的增加细粒度的细节，如纹理、颜色等。通过仅仅在结构阶段强化条件引导，我们构建了一个增强的结构先验，同时不影响后续的细化。

Multiviwe-aware zigzag advantage learning（MV-ZigAL）

尽管zigzag pass的引入提升了质量，但是呢，它增加了两个额外的diffusion model预测步骤啊，这导致推理时间变长了。为了解决这个问题，最终作者提出了MV-ZigAL，在多视角感知MDP形式基础上的一个新的reward优势学习策略，来把ZMV-Sampling的优势整合到标准的T2MV采样策略中。具体来说，我们对每个文本指令c采样两个多视角的轨迹，包括在t=T时进行zigzag的ZMV-Sampling轨迹，和一个不带zigzag的标准采样轨迹，并对两条轨迹计算reward。最后计算目标函数，见公式（14）。

这样我推测推理的时候，就可以不用zigzag了，因为训练的时候设计了目标函数，来让标准的方法逼近加了zigzag的方法。从而提升了推理效率。