2024多模态大模型发展调研

Jay_fearless

于 2024-10-02 00:33:05 发布

阅读量1.6k

点赞数 16

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签：自然语言处理多模态大语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jay_fearless/article/details/142676562

随着生成式大语言模型应用的日益广泛，其输入输出模态受限的问题日益凸显，成为制约技术进一步发展的瓶颈。为突破这一局限，本文聚焦于研究多模态信息的协同交互策略，旨在探索一种能够统一理解与生成的多模态模型构建方法。在此基础上，深入研究可控的混合多模态信息生成技术，力求揭示多模态语义层次间的隐含关系，从而实现对生成内容的精准编辑。此外，本文还致力于构建具备强时空一致性的多模态混合输出生成式模型，以期实现时序一致的长视频生成，并在复杂的音视频内容理解与生成任务中进行实践应用验证，为推动多模态大模型技术的全面发展贡献力量。

1.生成式模型输入输出模态受限

对于现有的大语言模型，一方面，其大多局限于关注于某种单一模态信息的处理，而缺乏真正「任意模态」的理解；另一方面，其都关注于多模态内容在输入端的理解，而不能以任意多种模态的灵活形式输出内容。

text -> text ：GPT-3.5, LLaMa, 百川

text -> image ：Dalle3，Midjourney

text -> audio ：sunoAI

text + image -> video : 可灵AI

text + image -> text: GPT-4, 文心一言

NExT-GPT：实现输入到输出「模态自由」, NUS华人团队开源

What Makes Multimodal Learning Better than Single (Provably)

从泛化角度解释多模态优越性的第一个理论处理，制定了一个多模态学习框架，该框架在实证文献中得到了广泛的研究，以严格地理解为什么多模态优于单模态，因为前者可以获得更好的隐空间表示。

本文基于一种经典的多模态学习框架，即无缝进行潜空间学习（Latent Space Learning）与任务层学习（Task-specific Learning）。具体地，首先将异构数据编码到一个统一潜空间 $\mathcal{Z}$ ，对应的映射函数族为 $\mathcal{G}$ ，要寻找的最优的映射是

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Jay_fearless 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。