论文阅读笔记28:多模态BERT
BERT模型是NLP领域近几年来最成功的预训练模型之一,而BERT一经提出,很多模仿BERT架构并用于其他的任务中的类BERT模型也不断涌现,这一次读的几篇文章都是多模态BERT相关的内容,分别是VisualBERT,VL-BERT和ViLBERT
Introduction:多模态BERT
BERT预训练模型在NLP领域的成功已经不需要我再多说了,它的成功引来了深度学习的其他领域比如CV的争相效仿,各种各样不同却又相同的类BERT模型不断涌现出来,说它们不同是因为这些BERT模型在细节上各有区别,分别对应不同的使用场景做了不同的挑调整和优化,而说它们相同是因为它们都遵循了预训练+微调的范式,通过在海量的数据集上进行预训练,来完成下游任务。今天的重点在于多模态的BERT模型,这一系列模型都是BERT在多模态任务上的应用。
关于多模态任务
所谓的多模态任务,常见的有图片标准Image Captioning,可视问答VQA,图片-文本检索和可视常识推理等等,多模态的任务往往需要将给定的图片和文本信息结合起来,找到它们的内在联系,这也是多模态任务的最大特征,即数据集中的图片和文本信息往往是成对的,并且图像和文本之间存在着一定的语义关联性,而多模态机器学习的最重要任务就是挖掘出成对的图像和文本信息之间隐藏的关联性。
关于预训练模型
预训练模型的通用范式有两种,一种是基于特征的,即将从预