CVPR 多模态大模型实现跨模态对齐：视觉+语言+解码三合一-CSDN博客

本文链接：https://blog.csdn.net/ym1593572486/article/details/149809568

关注gongzhonghao【CVPR顶会精选】

计算机视觉正经历从传统模型到基础大模型的范式变革！以GPT、CLIP等为代表的多模态大模型，正重新定义图像理解与生成的边界。

CVPR 2024聚焦大模型高效训练、具身智能、世界模型等前沿方向，涌现轻量化推理、具身决策等重磅研究。模型正从“识别”迈向“认知”，引领视觉任务新范式。今天小图给大家精选3篇CVPR有大模型方向的论文，请注意查收！

论文一：LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding

方法：

文章首先利用文档预训练模型编码器获取文档的多模态特征，然后通过多模态投影器将特征投影到LLM的嵌入空间，并与指令嵌入一起输入LLM生成结果。在训练阶段，先进行布局感知预训练，通过预训练任务让模型学习不同层次的文档布局信息。接着在布局感知监督微调阶段，采用LayoutCoT策略，分三步进行问题分析、相关区域聚焦和答案生成，以提升模型对布局信息的利用和问题解答能力。

创新点：

提出了布局指令调优策略，包含布局感知预训练和布局感知监督微调两个阶段，从全局到局部增强模型对文档布局的理解。
设计了布局链式思考模块，使模型能够聚焦于与问题相关区域并生成准确答案，同时带来了一定的可解释性。
在零样本文档理解任务上，LayoutLLM显著优于现有的基于开源7B LLM/MLLM的方法，展现了强大的文档布局建模潜力。

论文链接：

https://arxiv.org/abs/2404.05225

图灵学术论文辅导

论文二：SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models

方法：

文章首先将一个预训练的LVLM分解为描述器和定位器两个角色。训练过程中，描述器通过边界框-描述-边界框的自一致性奖励循环进行训练，采用近端策略优化强化学习范式，以确保生成的描述既具有描述性又能指导定位过程。定位器则通过监督学习进行训练，以解析描述器生成的描述中的细微语言线索，从而实现精确的对象定位。两个组件在训练过程中交替更新，并在每次训练周期后同步参数，以促进整个系统的和谐发展。

创新点：

提出了自一致性作为衡量LVLMs在细粒度指代表达理解中模型可靠性的重要指标，并在现有模型上进行了系统性评估。
设计了SC-Tune方法，有效提升了 LVLMs 的自一致性指代表达理解能力，且该方法数据高效并具有模型泛化性。
将SC-Tune应用于现有的LVLMs，在多个对象级视觉语言基准测试中显著提升了零样本性能，同时在图像级视觉语言基准测试中保持了竞争性或改进的性能。

论文链接：

https://arxiv.org/abs/2403.13263

图灵学术论文辅导

论文三：ViP-LLaVA:Making Large Multimodal Models Understand Arbitrary Visual Prompts

方法：

文章首先利用CLIP的能力来编码带有视觉标记的图像，通过alpha融合将视觉提示直接叠加到原始图像上，然后将结果图像输入到多模态模型中。为了训练模型识别和解释任意视觉提示，作者构建了一个包含52万图像-文本对的新视觉提示指令调整数据集。此外，文章还提出了一种可选的区域级指令调整数据生成方法，通过GPT-4V生成高质量的区域级指令数据，进一步提升模型在开放世界设置中的人类对话能力。