- 博客(457)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注

原创 更改pip源至清华、阿里、中科大镜像(临时使用)
可以在使用pip的时候加参数清华源:-i https://pypi.tuna.tsinghua.edu.cn/simple阿里源:-i https://mirrors.aliyun.com/pypi/simple中科大源:-i https://pypi.mirrors.ustc.edu.cn/simple/ ...
2019-10-05 16:29:07
13424
原创 (Arxiv-2025)统一多模态理解与生成模型:进展、挑战与机遇
本文综述了统一多模态理解与生成模型的最新进展,系统分析了三大架构范式(基于扩散、自回归及混合方法),并探讨了该领域的关键挑战与未来机遇。文章首先梳理了多模态理解模型和文本生成图像模型各自的发展现状,指出自回归架构在理解任务中的主导地位与扩散模型在生成任务中的优势。随后详细对比了现有统一模型的创新设计,包括图像标记化策略和跨模态注意力机制等核心技术。此外,作者还整理了专用数据集与评测基准,为后续研究提供资源支持。最后,文章讨论了分词策略、数据瓶颈等核心挑战,强调该领域仍处于快速发展阶段,具有广阔的研究前景。
2025-07-08 16:08:34
776
原创 (CSUR-2024) 视频扩散模型综述
本文综述了视频扩散模型的最新研究进展,系统梳理了该领域在视频生成、编辑和理解任务中的应用。随着扩散模型在AIGC领域的崛起,其在视频处理中展现出超越传统GAN和Transformer方法的潜力。文章首先介绍了扩散模型的三种基础框架(DDPM、SGM、Score SDE),然后重点分析了视频生成(如文本到视频生成)、视频编辑和视频理解三大方向的研究现状,包括代表性方法、数据集和评估指标。作者指出,尽管视频扩散模型发展迅速,但目前仍缺乏系统性综述,本文填补了这一空白,并讨论了当前挑战与未来趋势,为研究者提供了全
2025-07-07 11:28:50
1098
原创 (Arxiv-2025)径向注意力:用于长视频生成的 $\mathcal{O}(n \log n)$ 稀疏注意力与能量衰减机制
本文提出了一种名为径向注意力的新型稀疏注意力机制,用于解决长视频生成中的计算效率问题。该机制基于观察到的时空能量衰减现象(即注意力分数随token间时空距离增大而减小),设计了一种计算复杂度为O(n log n)的静态稀疏注意力掩码。每个token仅关注空间邻近token,且注意力窗口随时间距离指数收缩。实验表明,该方法在保持视频质量的同时,相比标准稠密注意力可提升推理速度最高达3.7倍,并减少4.4倍的微调成本。该方法兼容现有预训练模型,通过轻量级LoRA微调即可扩展至更长视频生成。
2025-07-07 11:27:42
640
原创 (Arxiv-2025)径向注意力:用于长视频生成的 $\mathcal{O}(n \log n)$ 稀疏注意力与能量衰减机制
本文提出了一种名为径向注意力的新型稀疏注意力机制,用于解决长视频生成中的计算效率问题。该机制基于观察到的时空能量衰减现象(即注意力分数随token间时空距离增大而减小),设计了一种计算复杂度为O(n log n)的静态稀疏注意力掩码。每个token仅关注空间邻近token,且注意力窗口随时间距离指数收缩。实验表明,该方法在保持视频质量的同时,相比标准稠密注意力可提升推理速度最高达3.7倍,并减少4.4倍的微调成本。该方法兼容现有预训练模型,通过轻量级LoRA微调即可扩展至更长视频生成。
2025-07-03 17:13:40
815
原创 (Arxiv-2025)通过动态 token 剔除实现无需训练的高效视频生成
尽管视频扩散 Transformer(DiT)模型在生成质量方面表现出色,但其实际部署受到大量计算需求的严重限制。这种低效性主要源于两个关键挑战:一是自注意力机制在 token 长度上的二次复杂度,二是扩散模型本身的多步生成特性。为了解决这些问题,我们提出了 Jenga,这是一种新颖的推理流程,结合了动态注意力剔除与渐进式分辨率生成策略。我们的方法基于两个关键洞察:(1)在扩散的早期阶段,不需要高分辨率的潜在变量;(2)在后期阶段,不需要密集的注意力机制。
2025-07-03 11:07:56
925
原创 (Arxiv-2024)自回归模型优于扩散:Llama用于可扩展的图像生成
摘要 香港大学提出的LlamaGen模型系列将大型语言模型的"下一个token预测"范式成功应用于图像生成,证明了纯粹自回归模型在没有视觉信号归纳偏置的情况下也能实现SOTA性能。该研究重新审视了图像标记器设计、模型可扩展性和训练数据质量等关键因素。主要贡献包括:(1)下采样比16的图像标记器,在ImageNet上取得0.94 rFID和97%码本使用率;(2)111M-3.1B参数的类条件模型在ImageNet 256×256上FID达2.18,超越LDM、DiT等扩散模型;(3)7
2025-07-02 16:11:48
1157
原创 (Arxiv-2025)为统一的多模态理解与生成协调视觉表示
摘要: 本文提出Harmon框架,通过共享的遮挡自回归(MAR)编码器统一多模态理解与生成任务。现有方法使用VQ或VAE编码器时,因侧重图像重建而忽视语义,导致理解性能受限。研究发现MAR编码器通过遮挡建模预训练能同时捕捉细粒度特征和高层语义,在特征可视化和线性探测中表现优异。Harmon采用三阶段训练流程,逐步优化共享编码器在生成与理解任务中的表现。实验表明,Harmon在GenEval、MJHQ30K等生成基准上达到SOTA,在理解任务上与专用语义编码器方法(如Janus)相当,验证了统一表示的协同效应
2025-06-30 16:02:24
1256
原创 (Arxiv-2025) BLIP3-o:一个完全开源的统一多模态模型家族——架构、训练与数据集
BLIP3-o:一个完全开源的统一多模态模型家族 摘要:本文提出BLIP3-o,一个支持图像理解和生成的开源统一多模态模型家族。通过系统研究自回归与扩散模型的结合方式,我们发现:(1)采用CLIP图像特征比VAE特征更高效且语义更丰富;(2)流匹配损失优于MSE损失;(3)顺序式"先理解后生成"的预训练策略效果最佳。基于这些发现,我们设计了基于扩散Transformer的架构,生成CLIP特征而非传统像素特征。此外,我们构建了BLIP3o-60k高质量指令微调数据集,通过GPT-4o生成
2025-06-30 11:13:47
1221
原创 (Arxiv-2025)Qwen2.5-VL 技术报告
Qwen2.5-VL技术报告介绍了Qwen团队开发的最新视觉语言模型,该模型在基础能力和创新功能上实现重大突破。模型具备增强的视觉识别、精准目标定位、强大文档解析和长视频理解能力,支持边界框和点定位,能稳健处理各类文档数据。技术亮点包括:引入窗口注意力机制优化计算效率,提出动态FPS采样支持视频理解,升级MRoPE对齐绝对时间,扩展预训练语料到4.1万亿token。模型提供三种尺寸,旗舰版72B与GPT-4o等先进模型媲美,尤其在文档和图表理解方面表现突出。Qwen2.5-VL保持了核心语言能力,可作为交互
2025-06-29 17:04:05
1371
原创 (Arxiv-2025)Janus-Pro:通过数据与模型扩展实现统一的多模态理解与生成
本文介绍了DeepSeek-AI提出的Janus-Pro模型,这是Janus的增强版本,通过优化训练策略、扩展训练数据和增大模型规模,实现了统一的多模态理解与生成能力的提升。Janus-Pro采用解耦的视觉编码架构,分别处理理解与生成任务,并改进了三阶段训练流程,大幅提高了图像生成质量和稳定性。实验表明,Janus-Pro-7B在多模态理解基准MMBench上达到79.2分,在图文生成排行榜GenEval上取得0.80分,均超越现有先进模型。该研究验证了视觉编码解耦方法在大模型上的可扩展性,为多模态领域提供
2025-06-29 15:53:31
1192
原创 (NIPS-2024)CogVLM:预训练语言模型的视觉专家
CogVLM:融合视觉专家模块的预训练语言模型 摘要:本文提出CogVLM,一种创新的视觉语言基础模型,通过引入可训练的视觉专家模块实现视觉与语言特征的深度融合。不同于主流浅层对齐方法,CogVLM在注意力层和前馈神经网络中插入视觉专家,同时冻结预训练语言模型参数,既保持NLP能力又增强视觉理解。CogVLM-17B在15个跨模态基准测试中达到SOTA性能,包括图像描述、VQA、LVLM和视觉定位任务。实验验证了视觉专家的有效性,并探讨了多模态预训练的关键因素。该工作开源了模型权重和SFT数据集,有望推动视
2025-06-29 14:27:28
926
原创 (NIPS-2023)视觉指令调优
摘要 本文提出了一种多模态视觉指令调优方法LLaVA(Large Language and Vision Assistant)。通过利用GPT-4生成视觉-语言指令跟随数据,将CLIP视觉编码器与Vicuna语言模型连接,构建端到端的通用视觉助手。主要贡献包括:1) 提出将图像文本对转换为指令数据的管道;2) 开发可在生成数据上微调的多模态模型;3) 构建包含多样化任务的评估基准LLaVA-Bench。实验表明,LLaVA展现出类GPT-4的多模态对话能力,在Science QA任务上与GPT-4协同达到9
2025-06-29 13:09:54
792
原创 (ICML-2023)BLIP-2:使用冻结图像编码器与大型语言模型的语言-图像预训练引导方法
BLIP-2提出了一种高效的视觉-语言预训练方法,通过利用冻结的图像编码器和大型语言模型(LLMs)来降低计算成本。该方法引入轻量级的Querying Transformer (Q-Former)作为视觉与语言模态间的桥梁,采用两阶段训练策略:第一阶段从冻结图像编码器中学习视觉-语言表示,第二阶段从冻结LLMs中引导视觉到语言的生成学习。尽管可训练参数显著减少(仅为Flamingo-80B的1/54),BLIP-2在多项视觉-语言任务上达到最先进性能,如零样本VQAv2任务表现提升8.7%。此外,BLIP-
2025-06-24 16:14:06
1103
原创 (ICML-2022)BLIP:构建统一视觉-语言理解与生成模型的语言图像预训练方法
BLIP:统一的视觉-语言预训练框架 BLIP提出了一种新颖的视觉-语言预训练框架,通过多模态混合编码器-解码器(MED)结构和数据自举方法CapFilt,实现了视觉-语言理解与生成任务的统一优化。MED架构能够同时支持三种功能模式:单模态编码、图像引导文本编码和图像引导文本解码。框架采用图文对比、图文匹配和语言建模三种损失联合优化。CapFilt方法通过生成合成图像描述和过滤噪声数据,有效提升了数据质量。实验表明,BLIP在多种视觉-语言任务(如图文检索、图像描述、视觉问答等)上达到SOTA性能,并展现出
2025-06-24 14:41:03
650
原创 (ICML-2025) RIFLEx:视频扩散Transformer中长度外推的“免费午餐”
摘要 本文提出了RIFLEx方法,用于解决视频扩散Transformer中的长度外推问题。研究发现现有方法在外推时会出现时间重复和运动减缓问题,根源在于位置嵌入中的"内在频率"成分。RIFLEx通过降低这一关键频率成分,无需修改模型结构或额外训练,即可实现高质量的2倍长视频生成("免费午餐")。经少量微调后,还能支持3倍外推。该方法在CogVideoX-5B等先进模型上验证有效,并可扩展至空间维度。 (字数:149)
2025-05-29 17:21:20
753
原创 (Arxiv-2025)统一多模态预训练中的涌现特性
本文介绍了字节跳动提出的开源多模态基础模型BAGEL,该模型基于统一Transformer架构,通过大规模交错多模态数据预训练(数万亿token),展现出多模态理解与生成的涌现能力。BAGEL采用混合专家架构,包含理解与生成两个专家模块,通过共享自注意力机制实现无瓶颈交互。模型支持自由形态视觉编辑、多视角合成等高级功能,在标准基准测试中性能超越现有开源模型。研究揭示了多模态能力的涌现规律:基础能力先收敛,随后复杂编辑和推理能力逐步显现。文章详细阐述了架构设计、视觉表征方案及训练策略,为多模态研究提供了可复现
2025-05-28 15:43:44
867
原创 (CVPR-2025) MaskUNet:不是所有参数都关键:基于掩码的扩散模型生成能力增强方法
本文提出MaskUNet方法,通过分析扩散模型中U-Net参数的时间维度机制,发现适当置零部分参数(包括较大参数)能提升去噪效果。作者提出两种微调策略:1)训练式方法通过MLP生成时间步和样本相关的二值掩码;2)免训练方法直接利用奖励模型优化掩码。在COCO数据集上,MaskUNet在zero-shot推理中取得最优FID分数,并验证了在下游任务中的有效性。该方法不修改预训练参数,仅通过动态掩码选择关键参数,显著提升了生成质量。
2025-05-26 11:05:24
1100
原创 (CVPR-2025)无需归一化的Transformer
归一化层在现代神经网络中无处不在,并长期被认为是必不可少的。本研究表明,不使用归一化的Transformer可以通过一种极其简单的技术达到甚至超过标准性能。我们提出了Dynamic Tanh(DyT),这是一种逐元素的操作DyTxtanhαxDyTxtanhαx,可以直接替代Transformer中的归一化层。DyT的灵感来自于一个观察:Transformer中的层归一化通常会产生类似tanh的、SSS形的输入输出映射。
2025-04-01 10:56:42
1267
原创 (Arxiv-2025)Magic 1-For-1:在一分钟内生成一分钟视频剪辑
在本技术报告中,我们提出了 Magic 1-For-1(Magic141),这是一种在内存消耗和推理延迟方面经过优化的高效视频生成模型。其核心思想很简单:将文本到视频的生成任务分解为两个更容易的子任务,即文本到图像生成和图像到视频生成,从而实现扩散步蒸馏。我们验证了,在相同的优化算法下,相较于文本到视频任务,图像到视频任务确实更容易收敛。我们还探索了一系列优化技巧,从三个方面降低训练图像到视频(I2V)模型的计算成本:1)通过多模态先验条件注入来加速模型收敛;2)通过应用对抗性步蒸馏来加速推理延迟;
2025-04-01 10:56:00
864
原创 (Arxiv-2025)Magic 1-For-1:在一分钟内生成一分钟视频剪辑
在本技术报告中,我们提出了 Magic 1-For-1(Magic141),这是一种在内存消耗和推理延迟方面经过优化的高效视频生成模型。其核心思想很简单:将文本到视频的生成任务分解为两个更容易的子任务,即文本到图像生成和图像到视频生成,从而实现扩散步蒸馏。我们验证了,在相同的优化算法下,相较于文本到视频任务,图像到视频任务确实更容易收敛。我们还探索了一系列优化技巧,从三个方面降低训练图像到视频(I2V)模型的计算成本:1)通过多模态先验条件注入来加速模型收敛;2)通过应用对抗性步蒸馏来加速推理延迟;
2025-03-24 17:13:12
899
原创 (Arxiv-2025)MagicDistillation:用于大规模人像少步合成的弱到强视频蒸馏
对开源大规模视频扩散模型(VDMs)进行微调以适应肖像视频合成任务,在多个维度上都能显著提升,例如视觉质量和面部运动的自然动态。尽管这些方法已取得进展,但如何实现逐步蒸馏(step distillation)并减少大规模VDMs所带来的大量计算开销仍未被深入探索。为填补这一空白,本文提出了弱到强的视频蒸馏方法(Weak-to-Strong Video Distillation,W2SVD),以缓解训练过程中的显存不足问题和在原始DMD中观察到的训练崩溃问题。
2025-03-24 16:20:49
1125
原创 (NIPS-2024)奖励足以快速生成照片般逼真的文本到图像
对齐生成图像与复杂文本提示和人类偏好是人工智能生成内容(AIGC)中的核心挑战。随着基于奖励增强的扩散蒸馏(reward-enhanced diffusion distillation)成为提升文本到图像模型可控性和逼真度的有前途方法,我们识别出一个基本的范式转变:当条件变得更加具体且奖励信号更强时,奖励本身成为生成的主导力量。相比之下,扩散损失(diffusion losses)仅仅是一种代价高昂的正则化形式。为了彻底验证我们的假设,我们提出R0,一种基于正则化奖励最大化。
2025-03-19 17:12:50
709
原创 (NIPS-2024)基于令牌合并的免训练文生图语义绑定
作者:胡泰航 南开大学文章标题:Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis。
2025-03-19 10:37:30
1045
原创 论文解读 | NeurIPS 2024 更快的扩散:重新思考扩散模型推理中编码器的作用
扩散模型的一个主要缺点是图像生成的推理时间慢。解决这个问题的最成功方法之一是蒸馏方法。然而,这些方法需要大量的计算资源。在本文中,我们采取了另一种方法来加速扩散模型。我们对UNet编码器进行了全面研究,并实证分析了编码器特征。这为我们提供了关于它们在推理过程中变化的见解。特别是,我们发现编码器特征变化很小,而解码器特征在不同时间步中表现出显著变化。这一见解激励我们在某些相邻时间步中省略编码器计算,并在多个时间步中将前一时间步的编码器特征作为输入重用到解码器。
2025-03-18 15:01:01
945
原创 (Arxiv-2025)SNOOPI:具有适当引导的超级增强单步扩散蒸馏
近期的研究表明,在将多步文本到图像扩散模型蒸馏为单步模型的过程中,取得了令人鼓舞的成果。当前最先进的蒸馏技术,例如 SwiftBrushv2(SBv2),甚至能够在有限资源下超越教师模型的性能。然而,我们的研究发现,现有方法在处理不同扩散模型架构时存在不稳定性,主要原因是在变分得分蒸馏(Variational Score Distillation, VSD)损失中使用了固定的引导尺度。
2025-02-26 11:09:59
1055
原创 (Arxiv 2025)一步扩散模型与 $f$-散度分布匹配
从扩散模型中采样涉及一个缓慢的迭代过程,这阻碍了其在实际应用中的部署,尤其是在交互式应用中。为了加速生成速度,近年来的方法通过变分评分蒸馏(variational score distillation)将多步扩散模型蒸馏到单步学生生成器中,从而使得学生生成的样本分布匹配教师模型的分布。然而,这些方法使用逆 Kullback-Leibler(KL)散度进行分布匹配,而这种方式已知具有模式塌陷的倾向。在本文中,我们提出了一种基于fff-散度最小化的新框架,称为 fff-distill,它能够涵盖不同的散度,并
2025-02-25 14:41:20
936
原创 (Arxiv-2025)ImageRAG:用于参考引导图像生成的动态图像检索
扩散模型能够合成高质量和多样化的视觉内容。然而,它们在生成罕见或未见概念时存在困难。为了解决这一挑战,我们探索了检索增强生成(Retrieval-Augmented Generation, RAG)在图像生成模型中的应用。我们提出了 ImageRAG,这是一种基于给定文本提示动态检索相关图像,并将其作为上下文来引导生成过程的方法。先前的方法使用检索到的图像来改进生成,但通常需要专门针对检索增强生成进行训练。而相比之下,ImageRAG 利用了现有的图像条件生成模型的能力,不需要针对 RAG 进行特定训练。
2025-02-21 15:21:13
1176
原创 (ICLR-2025)CTRL-ADAPTER:一种高效且通用的框架,用于将多种控制适配到任意扩散模型
ControlNets 被广泛用于向文本到图像的扩散模型添加空间控制,并支持不同的条件,例如深度图、涂鸦/素描和人体姿态。然而,在可控视频生成方面,ControlNets 由于特征空间的不匹配,无法直接集成到新的主干网络中,并且为新主干网络训练 ControlNets 对许多用户来说是一项巨大的负担。此外,独立地将 ControlNets 应用于不同帧无法有效保持目标的时间一致性。为了解决这些挑战,我们提出了。
2025-02-18 15:22:44
744
原创 (ICML-2024)得分一致性蒸馏:指数加速预训练扩散模型的一步生成蒸馏
我们提出了 Score Identity Distillation (SiD),这是一种创新的无数据蒸馏方法,可以将预训练的扩散模型的生成能力蒸馏到单步生成器中。SiD 不仅在蒸馏过程中实现了弗雷谢初始距离(FID)的指数级快速下降,而且在某些情况下甚至能接近或超越原始教师扩散模型的 FID 性能。我们通过将前向扩散过程重新表述为半隐式分布,利用三个与得分相关的恒等式,设计了一种创新的损失机制。该机制通过使用生成器自身合成的图像进行训练,实现了快速的 FID 下降,消除了对真实数据或基于反向扩散的生成的依
2025-02-16 15:46:37
1322
原创 (Neurocomputing-2024)RoFormer: 增强型 Transformer 与旋转位置编码
位置编码在 Transformer 结构中已被证明是有效的。它能够为序列中不同位置的元素之间的依赖关系建模提供有价值的监督。在本文中,我们首先探讨了将位置信息整合到基于 Transformer 的语言模型学习过程中的各种方法。然后,我们提出了一种新方法,称为旋转位置编码(Rotary Position Embedding, RoPE),以有效利用位置信息。具体而言,所提出的 RoPE 通过旋转矩阵对绝对位置进行编码,同时在自注意力计算中显式地融入相对位置的依赖关系。值得注意的是,RoPE 具备多种优越特性,
2025-02-14 20:52:02
1542
原创 (ICLR-2025)你只采样一次:通过自协作扩散 GAN 驯服一步文本到图像合成
近年来,一些研究尝试结合扩散模型(Diffusion Models, DMs)和生成对抗网络(Generative Adversarial Networks, GANs),以降低扩散模型中迭代去噪推理的计算成本。然而,这一方向的现有方法通常存在训练不稳定、模式崩溃或一步生成的学习效率较低等问题。为了解决这些问题,我们提出YOSO,这是一种全新的生成模型,专为快速、可扩展且高保真度的一步图像生成设计,同时具有高训练稳定性和模式覆盖能力。具体而言,我们通过去噪生成器自身平滑对抗散度,从而实现自协作学习。
2025-02-14 10:20:54
1503
原创 (ICLR-2024)探索文本到图像的定制化:从 LyCORIS 微调到模型评估
文本到图像生成模型因其能够根据文本提示生成高保真图像而受到极大关注。在这些模型中,Stable Diffusion 作为该快速发展的领域中的领先开源模型脱颖而出。然而,对这些模型进行微调的复杂性带来了多个挑战,包括新方法的集成以及系统化评估。为了解决这些问题,本文介绍了 LyCORIS(Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion),这是一个开源库,提供了多种 Stab
2025-02-14 10:19:34
1190
原创 (NIPS-2024)改进的分布匹配蒸馏以快速图像合成
最近的研究表明,通过蒸馏昂贵的扩散模型,可以生成高效的单步生成器。其中,分布匹配蒸馏(Distribution Matching Distillation,DMD)能够生成在分布上与教师模型匹配的单步生成器,即蒸馏过程并不强制与教师模型的采样轨迹一一对应。然而,为了确保实际训练的稳定性,DMD 需要额外的回归损失,该损失是通过教师模型使用确定性采样器进行多步采样所生成的大量噪声-图像对计算得到的。这不仅对大规模文本到图像合成计算代价高昂,而且还限制了学生模型的质量,使其过于依赖教师模型的原始采样路径。
2025-02-10 13:21:49
762
原创 (CVPR-2024)一步扩散,分布匹配蒸馏
扩散模型可以生成高质量图像,但通常需要数十次前向传播。我们提出了分布匹配蒸馏(Distribution Matching Distillation,DMD)方法,这是一种将扩散模型转换为一步图像生成器的过程,同时尽可能减少对图像质量的影响。我们强制一步图像生成器在分布层面上匹配扩散模型,通过最小化近似 KL 散度,其梯度可以表示为两个得分函数之差,一个来自目标分布,另一个来自我们的单步生成器所产生的合成分布。这些得分函数由两个分别在每个分布上单独训练的扩散模型参数化。
2025-02-09 17:09:35
1163
原创 (ICLR=2025)生成的表征对齐:训练扩散Transformer比你想象的更简单
最近的研究表明,扩散模型中的去噪过程能够在模型内部产生有意义的(判别性)表示,尽管这些表示的质量仍然落后于通过最近的自监督学习方法学习的表示。我们认为,训练大规模扩散模型以进行生成的主要瓶颈之一在于如何有效地学习这些表示。此外,通过引入高质量的外部视觉表示,而不是仅依赖扩散模型独立学习这些表示,训练可以变得更加容易。我们通过引入一种简单的正则化方法——表示对齐(REPA),来研究这一点,该方法将去噪网络中噪声输入隐藏状态的投影与从外部预训练视觉编码器获得的干净图像表示对齐。
2025-02-08 22:01:11
1491
原创 (Arxiv-2023)HiPA: 通过高频增强自适应实现一步文本到图像扩散模型
扩散模型已彻底改变了文本到图像的生成,但是它们的现实应用程序受到数百个扩散步骤所需的大量时间的阻碍。尽管已经提出了渐进式蒸馏以加快扩散采样的加快,但它仍然是一步生成的短缺,因此需要训练多个学生模型,这是高度参数性的遗产性且耗时。为了克服这些局限性,我们引入了高频增强适应性(HIPA),这是一种启用访问文本到图像扩散的参数有效方法。HIPA基于一个洞察,即高频信息至关重要,但在一步扩散中高度缺乏,重点是训练一步,低秩的适配器,以特别增强了高级扩散模型的代表性不足的高频能力。
2025-02-08 20:43:40
1046
原创 (NIPS-2024)Hyper-SD:有效图像合成的轨迹分割一致性模型
最近,已经出现了一系列扩散感知蒸馏算法,以减轻与扩散模型(DMS)多步推理过程相关的计算开销。当前的蒸馏技术通常会分为两个不同的方面:i)ode轨迹保存;ii)ODE轨迹重新制定。但是,这些方法患有严重的性能降解或域移位。为了解决这些局限性,我们提出了Hyper-SD,这是一个新型框架,协同合并ODE轨迹保存和重新制定的优势,同时在台阶压缩过程中保持近乎无情的性能。首先,我们引入轨迹分段的一致性蒸馏,以在预定义的时间段段内逐步执行一致的蒸馏,从而有助于从高阶的角度来保存原始ODE轨迹。
2025-02-08 18:34:12
946
原创 (JMLR-2022)Switch Transformers:通过简单高效的稀疏性扩展到万亿参数模型
在深度学习中,模型通常会对所有输入重复使用相同的参数。混合专家 (MoE) 模型则打破了这一传统,而是为每个传入示例选择不同的参数。结果是一个稀疏激活模型,具有大量参数,但计算成本却保持不变。然而,尽管 MoE 取得了一些显著的成功,但其广泛采用却受到复杂性、通信成本和训练不稳定性等因素的阻碍。我们通过引入 Switch Transformer 来解决这些问题。我们简化了 MoE 路由算法,并设计了直观的改进模型,降低了通信和计算成本。
2025-01-17 16:02:56
825
概率的公式推导,这步不知道怎么推过去的
2021-07-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人