Nature+CVPR双杀！Transformer热度狂飙，何恺明、李飞飞都参与了-CSDN博客

要问哪个是当下最流行的模型结构，那必然是Transformer。尤其近几年，因为LLM大行其道，我们对Transformer的探索热情成倍上升。

具体体现在各方大佬发布的诸多成果上，比如李飞飞团队的FlowMo、字节seed出品的SAIL、何恺明CVPR2025新作、微软Spectformer...CVPR/ICLR/nature methods等顶会顶刊上相关研究也数目繁多，可谓盛况空前。

方法：论文提出SAIL模型，单Transformer架构，直接处理图像和文本，无需预训练视觉编码器。它靠混合注意力机制与多模态位置编码提升性能，数据可扩展性强、视觉表征能力优，随预训练数据增多表现更好，在视觉任务中出色。

创新点：

扫码添加小助理，回复“977C”

免费获取990篇论文复现+人工智能200G资料

方法：哈尔洛3（Hallo3）是一种新型的肖像动画技术，它运用基于Transformer的预训练视频生成模型，通过身份数字参考网络保持面部特征一致性，并利用语音音频驱动视频生成，从而创造出高度动态且逼真的肖像动画。

创新点：

提出首个基于预训练Transformer的视频生成模型用于肖像动画，能生成高度动态、逼真视频，解决非正面视角等挑战。
设计身份数字参考网络，结合因果3D变分自编码器与Transformer层确保面部身份一致。
探索多种语音音频条件和运动帧机制，实现语音驱动连续视频生成，提升连贯性与真实性。

Haploomni: Unified single transformer for multimodal video understanding and generation

方法：HaploOmni是一种高效的单Transformer模型，用于多模态视频理解和生成。它通过多模态预热策略利用先验知识，并采用特征预缩放和多模态AdaLN技术来提升跨模态兼容性，以较低的训练成本实现了优异的性能。

创新点：
提出多模态预热策略，利用先验知识扩展模型能力。
引入特征预缩放和多模态AdaLN技术，解决跨模态兼容性挑战。
在多个图像和视频理解和生成基准测试中，以有限的训练成本实现了与先进统一模型相媲美的性能。

扫码添加小助理，回复“977C”

免费获取990篇论文复现+人工智能200G资料