大杀四方!揭示多模态预训练模型的最新动态

2024深度学习发论文&模型涨点之——多模态+预训练

多模态预训练是一种机器学习范式,它通过整合来自不同模态(如文本、图像、音频等)的数据来训练模型,目的是让模型能够理解和处理多种类型的信息。这种方法的核心在于学习一个统一的表征空间,使得模型能够捕捉不同模态之间的内在联系和交互。多模态预训练模型在多个领域展现出强大的应用潜力,包括但不限于自动图像标注、视频内容理解、跨模态检索和多模态对话系统。这些模型通过预训练任务(如掩码语言模型、对比学习等)来学习模态间的共性与差异,从而在下游任务中实现更好的性能。

随着技术进步,多模态预训练模型不断优化,不仅增强了模型的推理和决策能力,还通过算法和结构创新,在多模态任务中实现了更精准的性能表现。

如果有同学想发表相关论文,小编整理了一些多模态+预训练【论文代码】合集,以下放出部分,全部论文PDF版,需要的同学公重号【AI科研灵感】回复“多模态+预训练”即可全部领取

论文精选

论文1:

CIRP: Cross-Item Relational Pre-training for Multimodal Product Bundling

CIRP:面向多模态产品捆绑的跨项目关系预训练

方法

  • 多模态编码器:使用多模态编码器生成图像和文本表示。

  • 跨项目对比损失(CIC)和单项目图像-文本对比损失(ITC):作为预训练目标,利用这两种对比损失来优化模型。

  • 关系修剪模块:移除噪声和冗余关系,减少潜在噪声和计算成本。

图片

创新点

  • 跨项目关系建模:首次将跨项目关系信息整合到多模态预训练模型中,为产品捆绑提供了新的视角。

  • CIRP框架:开发了一个新的框架CIRP,能够同时建模单个项目的语义和跨项目关系,并提出了关系修剪模块以提高预训练的效率和效果。

  • 实验结果:在三个产品捆绑数据集上的实验结果证明了CIRP在效果和效率方面的竞争性能。

图片

论文2:

COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training

COSMO:具有交错预训练的对比流线多模态模型

方法

  • 语言模型分割:将语言模型分割成专门处理单模态文本和多模态数据处理的组件。

  • 对比损失引入:在文本生成模型中引入对比损失,增强模型在文本和视觉数据任务中的性能。

  • Howto-Interlink7M数据集:创建了一个包含全面字幕的交错视频-文本数据集,以弥补高质量长文本视频数据集的不足。

图片

创新点

  • CosMo架构:提出了一个新的架构CosMo,通过额外的对比损失和流线型模型设计,在保持多模态学习效能的同时减少了可学习参数。

  • Howto-Interlink7M数据集:引入了一个高质量的交错视频-文本数据集,这是长文本多模态数据集的一个重要补充。

  • 性能提升:在多个下游数据集上展示了显著的性能提升,证明了高质量视频-文本数据在各种图像-文本和视频-文本任务中对模型性能的增强作用。

图片


论文3:

Align as Ideal: Cross-Modal Alignment Binding for Federated Medical Vision-Language Pre-training

理想对齐:用于联合医学视觉-语言预训练的跨模态对齐绑定

方法

  • 联合学习(FL)策略:提出使用联合学习来扩大医学视觉-语言预训练(VLP)的数据集,同时保护数据隐私。

  • Federated Align as IDeal (FedAID) 框架:为了解决数据异质性问题,提出了FedAID框架,通过绑定本地客户端学习到的理想跨模态对齐来增强数据异质性的鲁棒性。

  • 基于指导的正则化:通过引入教师对齐模块生成锚定表示空间,用于正则化,以减少全局聚合特征的失真。

  • 分布式鲁棒优化(DRO):在联合预训练的每次通信中,使用DRO学习无偏的跨模态对齐。

图片

创新点

  • 数据异质性的解决:首次针对医学VLP在联合设置下的问题,提出了一种新的方法来利用来自不同机构的异质多模态数据集。

  • 跨模态对齐绑定:提出了一种新的方法,通过引入基于指导的本地训练来学习无偏的跨模态对齐,以减轻特征失真。

  • 分布式鲁棒优化的应用:通过DRO算法学习鲁棒的教师对齐模块,优化了最坏情况下由本地异质交叉模态对齐引起的特征编码器失真。

  • 实验验证:实验结果表明,该方法在具有数据异质性的医学VLP中有效地促进了联合多模态学习,并且可以应用于各种下游任务,包括图像-文本检索、分类和分割。

图片


论文4:

ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning

ChartAssistant:通过图表到表格预训练和多任务指令调优的通用图表多模态语言模型

方法

  • 图表到表格预训练:通过将图表解析为文本形式的表格,使模型理解图表元素及其关系。

  • 多任务指令调优:在预训练后,使用ChartSFT数据集进行多任务指令调优,以提高模型在各种图表相关任务上的性能。

  • 两阶段训练流程:首先进行图表到表格的预训练,然后进行多任务指令调优。

  • ChartSFT数据集构建:构建了一个包含多种图表相关任务的大型数据集,以支持模型训练。

图片

创新点

  • 通用图表理解:提出了一个能够理解和推理各种图表类型的通用模型ChartAssistant。

  • 图表到表格预训练:通过预训练任务使模型能够将图表与结构化的文本表格对齐,增强了模型对图表的理解。

  • 多任务指令调优:通过在ChartSFT数据集上进行多任务指令调优,使单一模型能够在多种图表相关任务上表现出色。

  • 数据集的多样性和全面性:ChartSFT数据集在规模、任务和图表类型上超越了现有的图表基准,提供了更全面的标注和数据。

图片

如果有同学想发表相关论文,小编整理了一些多模态+预训练【论文】合集。

需要的同学公重号【AI科研灵感】回复“多模态+预训练”即可全部领取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值