# 论文阅读笔记28：多模态BERT

最新推荐文章于 2025-03-03 13:50:46 发布

墨痕_777

最新推荐文章于 2025-03-03 13:50:46 发布

阅读量874

点赞数 10

CC 4.0 BY-SA版权

文章标签：论文阅读笔记 bert

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mohen_777/article/details/140179966

论文阅读笔记28：多模态BERT

BERT模型是NLP领域近几年来最成功的预训练模型之一，而BERT一经提出，很多模仿BERT架构并用于其他的任务中的类BERT模型也不断涌现，这一次读的几篇文章都是多模态BERT相关的内容，分别是VisualBERT，VL-BERT和ViLBERT

Introduction：多模态BERT

BERT预训练模型在NLP领域的成功已经不需要我再多说了，它的成功引来了深度学习的其他领域比如CV的争相效仿，各种各样不同却又相同的类BERT模型不断涌现出来，说它们不同是因为这些BERT模型在细节上各有区别，分别对应不同的使用场景做了不同的挑调整和优化，而说它们相同是因为它们都遵循了预训练+微调的范式，通过在海量的数据集上进行预训练，来完成下游任务。今天的重点在于多模态的BERT模型，这一系列模型都是BERT在多模态任务上的应用。

关于多模态任务

所谓的多模态任务，常见的有图片标准Image Captioning，可视问答VQA，图片-文本检索和可视常识推理等等，多模态的任务往往需要将给定的图片和文本信息结合起来，找到它们的内在联系，这也是多模态任务的最大特征，即数据集中的图片和文本信息往往是成对的，并且图像和文本之间存在着一定的语义关联性，而多模态机器学习的最重要任务就是挖掘出成对的图像和文本信息之间隐藏的关联性。

关于预训练模型

预训练模型的通用范式有两种，一种是基于特征的，即将从预

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

墨痕_777 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。