Nature+CVPR双杀!Transformer热度狂飙,何恺明、李飞飞都参与了

要问哪个是当下最流行的模型结构,那必然是Transformer。尤其近几年,因为LLM大行其道,我们对Transformer的探索热情成倍上升。

具体体现在各方大佬发布的诸多成果上,比如李飞飞团队的FlowMo、字节seed出品的SAIL、何恺明CVPR2025新作、微软Spectformer...CVPR/ICLR/nature methods等顶会顶刊上相关研究也数目繁多,可谓盛况空前。

改进

The Scalability of Simplicity:  Empirical Analysis of Vision-Language Learning with a Single Transformer

方法:论文提出SAIL模型,单Transformer架构,直接处理图像和文本,无需预训练视觉编码器。它靠混合注意力机制与多模态位置编码提升性能,数据可扩展性强、视觉表征能力优,随预训练数据增多表现更好,在视觉任务中出色。

创新点:

  • SAIL模型用单Transformer架构,直接处理图像和文本,不用预训练视觉编码器。

  • SAIL有混合注意力机制,图像块双向、文本因果,还有多模态旋转位置编码。

  • 经大规模预训练和扩展,SAIL在多模态任务表现与模块化MLLM相当,视觉表征任务出色。

    SpectFormer: Frequency and Attention is what you need in a Vision Transformer

    方法:SpectFormer是新型视觉Transformer架构,结合频谱层与多头注意力层。初始层用频谱层捕捉图像局部特征(如线条、边缘),深层用多头注意力层处理全局特征及长距离依赖,在图像分类任务中性能提升显著。

    创新点:

  • 提出SpectFormer架构,结合频谱层和多头注意力层,提升视觉Transformer性能。

  • 频谱层置于架构初期,捕捉图像局部频率信息,如线条和边缘;多头注意力层置于深层,处理全局特征和长距离依赖。

  • 在ImageNet等数据集上,SpectFormer-L达85.7% top-1准确率,优于纯频谱或纯注意力Transformer。

扫码添加小助理,回复“977C

免费获取990篇论文复现+人工智能200G资料

应用

Hallo3: Highly dynamic and realistic portrait image animation with video diffusion transformer

方法:哈尔洛3(Hallo3)是一种新型的肖像动画技术,它运用基于Transformer的预训练视频生成模型,通过身份数字参考网络保持面部特征一致性,并利用语音音频驱动视频生成,从而创造出高度动态且逼真的肖像动画。

创新点:

  • 提出首个基于预训练Transformer的视频生成模型用于肖像动画,能生成高度动态、逼真视频,解决非正面视角等挑战。

  • 设计身份数字参考网络,结合因果3D变分自编码器与Transformer层确保面部身份一致。

  • 探索多种语音音频条件和运动帧机制,实现语音驱动连续视频生成,提升连贯性与真实性。

    Haploomni: Unified single transformer for multimodal video understanding and generation

    方法:HaploOmni是一种高效的单Transformer模型,用于多模态视频理解和生成。它通过多模态预热策略利用先验知识,并采用特征预缩放和多模态AdaLN技术来提升跨模态兼容性,以较低的训练成本实现了优异的性能。

    创新点:

  • 提出多模态预热策略,利用先验知识扩展模型能力。

  • 引入特征预缩放和多模态AdaLN技术,解决跨模态兼容性挑战。

  • 在多个图像和视频理解和生成基准测试中,以有限的训练成本实现了与先进统一模型相媲美的性能。

    扫码添加小助理,回复“977C

    免费获取990篇论文复现+人工智能200G资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值