论文速读|Can We Generate Images With Cot?
Let’s Verify And Reinforce Image Generation Step By Step
论文信息:
简介:
随着大型语言模型(LLMs)和大型多模态模型(LMMs)的发展,它们在语言、2D图像、视频和3D点云等领域取得了显著成就。近年来,研究者们致力于提升这些模型的复杂推理能力,例如通过引入链式思维(Chain-of-Thought,CoT)推理策略,使其在数学、科学和编程等领域表现出色。然而,尽管在多模态理解任务中取得了成功,但将类似的多步骤推理策略应用于图像生成领域仍是一个未被充分探索的课题。图像生成任务(尤其是自回归图像生成)与LLMs和LMMs在输出方式上存在相似性,它们都将目标数据量化为离散的token,并基于之前生成的token迭代预测部分内容。这使得研究者们开始思考是否可以借鉴CoT推理策略来逐步验证和强化图像生成过程。