CVPR 多模态大模型实现跨模态对齐:视觉+语言+解码三合一

关注gongzhonghao【CVPR顶会精选

计算机视觉正经历从传统模型到基础大模型的范式变革!以GPT、CLIP等为代表的多模态大模型,正重新定义图像理解与生成的边界。

CVPR 2024聚焦大模型高效训练、具身智能、世界模型等前沿方向,涌现轻量化推理、具身决策等重磅研究。模型正从“识别”迈向“认知”,引领视觉任务新范式。今天小图给大家精选3篇CVPR有大模型方向的论文,请注意查收!

论文一:LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding

方法:

文章首先利用文档预训练模型编码器获取文档的多模态特征,然后通过多模态投影器将特征投影到LLM的嵌入空间,并与指令嵌入一起输入LLM生成结果。在训练阶段,先进行布局感知预训练,通过预训练任务让模型学习不同层次的文档布局信息。接着在布局感知监督微调阶段,采用LayoutCoT策略,分三步进行问题分析、相关区域聚焦和答案生成,以提升模型对布局信息的利用和问题解答能力。

图片

创新点:

  • 提出了布局指令调优策略,包含布局感知预训练和布局感知监督微调两个阶段,从全局到局部增强模型对文档布局的理解。

  • 设计了布局链式思考模块,使模型能够聚焦于与问题相关区域并生成准确答案,同时带来了一定的可解释性。

  • 在零样本文档理解任务上,LayoutLLM显著优于现有的基于开源7B LLM/MLLM的方法,展现了强大的文档布局建模潜力。

图片

论文链接:

https://arxiv.org/abs/2404.05225

图灵学术论文辅导

论文二:SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models

方法:

文章首先将一个预训练的LVLM分解为描述器和定位器两个角色。训练过程中,描述器通过边界框-描述-边界框的自一致性奖励循环进行训练,采用近端策略优化强化学习范式,以确保生成的描述既具有描述性又能指导定位过程。定位器则通过监督学习进行训练,以解析描述器生成的描述中的细微语言线索,从而实现精确的对象定位。两个组件在训练过程中交替更新,并在每次训练周期后同步参数,以促进整个系统的和谐发展。

图片

创新点:

  • 提出了自一致性作为衡量LVLMs在细粒度指代表达理解中模型可靠性的重要指标,并在现有模型上进行了系统性评估。

  • 设计了SC-Tune方法,有效提升了 LVLMs 的自一致性指代表达理解能力,且该方法数据高效并具有模型泛化性。

  • 将SC-Tune应用于现有的LVLMs,在多个对象级视觉语言基准测试中显著提升了零样本性能,同时在图像级视觉语言基准测试中保持了竞争性或改进的性能。

图片

论文链接:

https://arxiv.org/abs/2403.13263

图灵学术论文辅导

论文三:ViP-LLaVA:Making Large Multimodal Models Understand Arbitrary Visual Prompts

方法:

文章首先利用CLIP的能力来编码带有视觉标记的图像,通过alpha融合将视觉提示直接叠加到原始图像上,然后将结果图像输入到多模态模型中。为了训练模型识别和解释任意视觉提示,作者构建了一个包含52万图像-文本对的新视觉提示指令调整数据集。此外,文章还提出了一种可选的区域级指令调整数据生成方法,通过GPT-4V生成高质量的区域级指令数据,进一步提升模型在开放世界设置中的人类对话能力。

图片

创新点:

  • 提出了一种新颖的多模态模型,能够通过直接在RGB图像上叠加视觉标记来解码任意视觉提示,使用户能够以自然的方式标记图像并与模型交互。

  • 引入了ViP-Bench,这是一个全面的基准测试,用于评估模型在多个维度上对视觉提示的理解能力,为未来在该领域的研究提供了基础。

  • ViP-LLaVA在多个区域理解任务上取得了最先进的性能,超越了专门设计用于区域编码的模型。

图片

论文链接:

https://arxiv.org/abs/2312.00784

本文选自gongzhonghao【CVPR顶会精选

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值