2024深度学习发论文&模型涨点之——多模态+预训练
李沐大神前阵子在上交大的演讲大家关注了没,听完确实认同多模态才是当下的一个趋势。大神强调,多模态模型将文本、图片、视频和语音结合起来,是当前AI发展的一个重要趋势。多模态模型不仅能扩展文本模型的能力,还能通过文本来控制和定制其他模态的输出,这大大降低了使用门槛。
预训练范式在多模态数据领域取得了进展,提高了从跨模态到完全多模态的各种任务的性能。例如,CLIP(Contrastive Language-Image Pre-training)在WIT数据集上进行预训练,联合训练了图像编码器和文本编码器,并在多个视觉和视觉-语言数据集上进行了性能测试。
如果有同学想发表相关论文冲冲顶会,小编整理了一些多模态+预训练【论文】合集,以下放出部分,全部论文PDF版需要的同学关注公人人人号“AI智界先锋”即可全部领取。
论文精选
论文1:
ChartAssistant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning
ChartAssistant:通过图表到表格预训练和多任务指令调优的通用图表多模态语言模型
方法
-
两阶段训练过程:ChartAssistant模型采用两阶段训练方法,首先进行图表到表格的预训练,然后进行多任务指令调优的微调。
-
图表到表格预训练(Chart-to-Table Pre-training):通过将图表解析成对应的文本表格,使模型能够理解图表中的元素和它们之间的关系。
-
多任务指令调优(Multitask Instruction Tuning):使用ChartSFT数据集,包含多种图表相关任务,对模型进行微调,以提高其在各种图表任务上的性能。
-
ChartSFT数据集构建:构建了一个大规模的图表特定指令调优基准数据集,包含39M个图表-文本标注数据,涵盖了基本和专业类型的图表。
创新点
-
图表到表格预训练:通过预训练步骤,ChartAssistant能够将图表与结构化文本对齐,为后续的多任务学习打下基础。
-
多任务指令调优:通过在ChartSFT数据集上进行多任务学习,ChartAssistant能够在单一模型上实现对多种图表相关任务的强性能。
-
ChartSFT数据集:提供了一个更全面、更多样化的图表任务和类型的数据集,与以往的基准数据集相比,ChartSFT在数据注释的质量和范围上都有显著提升。
-
零样本学习:ChartAssistant在零样本设置下表现出色,即使在没有见过的图表数据上也能取得显著的性能提升。
论文2:
CIRP: Cross-Item Relational Pre-training for Multimodal Product Bundling
CIRP:用于多模态产品捆绑的跨项目关系预训练
方法
-
多模态编码器:使用多模态编码器生成图像和文本表示。
-
跨项目对比损失(CIC)和个体项目的图像-文本对比损失(ITC):作为预训练目标,通过CIC损失使相关项目表示更接近,通过ITC损失保持跨模态对齐。
-
关系修剪模块:移除噪声和冗余关系,减少计算成本。
-
产品捆绑模型ItemKNN:将CIRP提取的项目表示应用于产品捆绑模型。
创新点
-
跨项目关系建模:首次将跨项目关系信息整合到多模态预训练模型中,用于产品捆绑。
-
CIRP框架:同时建模个体项目的语义和跨项目关系,即使对于冷启动项目也能生成关系感知的多模态表示。
-
关系修剪模块:提出一种新颖的关系修剪模块,提高预训练效率和效果。
-
实验结果:在三个电子商务数据集上的实验结果证明了CIRP在效果和效率方面的竞争性能。
论文3:
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
COSMO:具有交错预训练的对比流线型多模态模型
方法
-
对比损失引入:将对比损失引入文本生成模型,提出COSMO框架,将语言模型分割成专门的单模态文本处理和多模态数据处理组件。
-
统一框架:COSMO框架合并单模态和多模态元素,增强了涉及文本和视觉数据任务的模型性能,同时显著减少可学习参数。
-
交错数据集Howto-Interlink7M:引入一个创新的交错视频-文本数据集,以弥补高质量长文本视频数据集的不足。
-
模型架构:提出一个能够处理四种不同类型输入(包括交错数据)的新架构,旨在纠正Flamingo架构的局限性。
创新点
-
对比流线型多模态框架(COSMO):提出了一个新的架构,通过额外的对比损失进行交错数据预训练,以34%的可学习参数实现了显著的性能提升。
-
交错视频-文本数据集(Howto-Interlink7M):引入了一个高质量的交错视频-文本数据集,这是长文本多模态数据集的一个重要补充。
-
性能提升:展示了顶级交错视频-文本数据在多种图像-文本和视频-文本任务中提升模型性能的能力。
-
减少参数和数据效率:在公共数据集上使用更少的样本实现了优于OpenFlamingo的性能,同时减少了模型的参数数量。
论文4:
Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training
按需设计:利用视觉问题回答进行多模态预训练
方法
-
多粒度VQA设计:利用医疗报告中的描述设计与不同疾病相关的多粒度问题-答案对,协助框架在预训练中无需额外专家注释。
-
Quasi-textual Feature Transformer(QFT)模块:提出一个新颖的预训练框架,包含QFT模块,通过对比学习策略将视觉特征转换为接近文本域的准文本空间。
-
对比学习策略:通过QFT模块的对比学习任务,缩小视觉和语言模态之间的分布差距,提高模型的视觉理解能力。
创新点
-
多模态预训练中的VQA应用:首次在医疗领域利用VQA进行多模态预训练,帮助框架关注不同病理特征,无需额外专家注释。
-
QFT模块与对比学习策略:提出了QFT模块,通过对比学习策略将视觉特征对齐到准文本域,缩小模态差距,促进模态对齐。
-
下游任务的性能提升:在报告生成、分类、检测和分割四个下游任务中展示了该框架相比其他最先进方法的显著改进。
-
如果有同学想发表相关论文冲冲顶会,小编整理了一些多模态+预训练【论文】合集,以下放出部分,全部论文PDF版需要的同学关注公人人人号“AI智界先锋”即可全部领取。