关注gongzhonghao【CVPR顶会精选】
计算机视觉正经历从传统模型到基础大模型的范式变革!以GPT、CLIP等为代表的多模态大模型,正重新定义图像理解与生成的边界。
CVPR 2024聚焦大模型高效训练、具身智能、世界模型等前沿方向,涌现轻量化推理、具身决策等重磅研究。模型正从“识别”迈向“认知”,引领视觉任务新范式。今天小图给大家精选3篇CVPR有大模型方向的论文,请注意查收!
论文一:LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding
方法:
文章首先利用文档预训练模型编码器获取文档的多模态特征,然后通过多模态投影器将特征投影到LLM的嵌入空间,并与指令嵌入一起输入LLM生成结果。在训练阶段,先进行布局感知预训练,通过预训练任务让模型学习不同层次的文档布局信息。接着在布局感知监督微调阶段,采用LayoutCoT策略,分三步进行问题分析、相关区域聚焦和答案生成,以提升模型对布局信息的利用和问题解答能力。
创新点:
-
提出了布局指令调优策略,包含布局感知预训练和布局感知监督微调两个阶段,从全局到局部增强模型对文档布局的理解。
-
设计了布局链式思考模块,使模型能够聚焦于与问题相关区域并生成准确答案,同时带来了一定的可解释性。
-
在零样本文档理解任务上,LayoutLLM显著优于现有的基于开源7B LLM/MLLM的方法,展现了强大的文档布局建模潜力。
论文链接:
https://arxiv.org/abs/2404.05225
图灵学术论文辅导
论文二:SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models
方法:
文章首先将一个预训练的LVLM分解为描述器和定位器两个角色。训练过程中,描述器通过边界框-描述-边界框的自一致性奖励循环进行训练,采用近端策略优化强化学习范式,以确保生成的描述既具有描述性又能指导定位过程。定位器则通过监督学习进行训练,以解析描述器生成的描述中的细微语言线索,从而实现精确的对象定位。两个组件在训练过程中交替更新,并在每次训练周期后同步参数,以促进整个系统的和谐发展。
创新点:
-
提出了自一致性作为衡量LVLMs在细粒度指代表达理解中模型可靠性的重要指标,并在现有模型上进行了系统性评估。
-
设计了SC-Tune方法,有效提升了 LVLMs 的自一致性指代表达理解能力,且该方法数据高效并具有模型泛化性。
-
将SC-Tune应用于现有的LVLMs,在多个对象级视觉语言基准测试中显著提升了零样本性能,同时在图像级视觉语言基准测试中保持了竞争性或改进的性能。
论文链接:
https://arxiv.org/abs/2403.13263
图灵学术论文辅导
论文三:ViP-LLaVA:Making Large Multimodal Models Understand Arbitrary Visual Prompts
方法:
文章首先利用CLIP的能力来编码带有视觉标记的图像,通过alpha融合将视觉提示直接叠加到原始图像上,然后将结果图像输入到多模态模型中。为了训练模型识别和解释任意视觉提示,作者构建了一个包含52万图像-文本对的新视觉提示指令调整数据集。此外,文章还提出了一种可选的区域级指令调整数据生成方法,通过GPT-4V生成高质量的区域级指令数据,进一步提升模型在开放世界设置中的人类对话能力。
创新点:
-
提出了一种新颖的多模态模型,能够通过直接在RGB图像上叠加视觉标记来解码任意视觉提示,使用户能够以自然的方式标记图像并与模型交互。
-
引入了ViP-Bench,这是一个全面的基准测试,用于评估模型在多个维度上对视觉提示的理解能力,为未来在该领域的研究提供了基础。
-
ViP-LLaVA在多个区域理解任务上取得了最先进的性能,超越了专门设计用于区域编码的模型。
论文链接:
https://arxiv.org/abs/2312.00784
本文选自gongzhonghao【CVPR顶会精选】