李沐也看好的方向：多模态+预训练中的模态融合策略

2024深度学习发论文&模型涨点之——多模态+预训练

李沐大神前阵子在上交大的演讲大家关注了没，听完确实认同多模态才是当下的一个趋势。大神强调，多模态模型将文本、图片、视频和语音结合起来，是当前AI发展的一个重要趋势。多模态模型不仅能扩展文本模型的能力，还能通过文本来控制和定制其他模态的输出，这大大降低了使用门槛。

预训练范式在多模态数据领域取得了进展，提高了从跨模态到完全多模态的各种任务的性能。例如，CLIP（Contrastive Language-Image Pre-training）在WIT数据集上进行预训练，联合训练了图像编码器和文本编码器，并在多个视觉和视觉-语言数据集上进行了性能测试。

如果有同学想发表相关论文冲冲顶会，小编整理了一些多模态+预训练【论文】合集，以下放出部分，全部论文PDF版需要的同学关注公人人人号“AI智界先锋”即可全部领取。

论文精选

论文1：

ChartAssistant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning

ChartAssistant：通过图表到表格预训练和多任务指令调优的通用图表多模态语言模型

方法

两阶段训练过程：ChartAssistant模型采用两阶段训练方法，首先进行图表到表格的预训练，然后进行多任务指令调优的微调。
图表到表格预训练（Chart-to-Table Pre-training）：通过将图表解析成对应的文本表格，使模型能够理解图表中的元素和它们之间的关系。
多任务指令调优（Multitask Instruction Tuning）：使用ChartSFT数据集，包含多种图表相关任务，对模型进行微调，以提高其在各种图表任务上的性能。
ChartSFT数据集构建：构建了一个大规模的图表特定指令调优基准数据集，包含39M个图表-文本标注数据，涵盖了基本和专业类型的图表。

创新点

图表到表格预训练：通过预训练步骤，ChartAssistant能够将图表与结构化文本对齐，为后续的多任务学习打下基础。
多任务指令调优：通过在ChartSFT数据集上进行多任务学习，ChartAssistant能够在单一模型上实现对多种图表相关任务的强性能。
ChartSFT数据集：提供了一个更全面、更多样化的图表任务和类型的数据集，与以往的基准数据集相比，ChartSFT在数据注释的质量和范围上都有显著提升。
零样本学习：ChartAssistant在零样本设置下表现出色，即使在没有见过的图表数据上也能取得显著的性能提升。

论文2：

CIRP: Cross-Item Relational Pre-training for Multimodal Product Bundling

CIRP：用于多模态产品捆绑的跨项目关系预训练

方法

创新点

论文3：

COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training

COSMO：具有交错预训练的对比流线型多模态模型

方法

创新点

论文4：

Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training

按需设计：利用视觉问题回答进行多模态预训练

方法

多粒度VQA设计：利用医疗报告中的描述设计与不同疾病相关的多粒度问题-答案对，协助框架在预训练中无需额外专家注释。
Quasi-textual Feature Transformer（QFT）模块：提出一个新颖的预训练框架，包含QFT模块，通过对比学习策略将视觉特征转换为接近文本域的准文本空间。
对比学习策略：通过QFT模块的对比学习任务，缩小视觉和语言模态之间的分布差距，提高模型的视觉理解能力。

创新点

多模态预训练中的VQA应用：首次在医疗领域利用VQA进行多模态预训练，帮助框架关注不同病理特征，无需额外专家注释。
QFT模块与对比学习策略：提出了QFT模块，通过对比学习策略将视觉特征对齐到准文本域，缩小模态差距，促进模态对齐。
下游任务的性能提升：在报告生成、分类、检测和分割四个下游任务中展示了该框架相比其他最先进方法的显著改进。
如果有同学想发表相关论文冲冲顶会，小编整理了一些多模态+预训练【论文】合集，以下放出部分，全部论文PDF版需要的同学关注公人人人号“AI智界先锋”即可全部领取。