
AIGC
文章平均质量分 82
生成模型
zzzyzh
一个不会踢足球的棋手不是好程序员
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Work【3】:TRIG —— 解码多维度权衡,重塑生成模型评测与优化新范式!
本文介绍了ICCV 2025论文《Trade-offs in Image Generation: How Do Different Dimensions Interact?》,提出TRIG-Bench基准和TRIGScore评估方法。该研究针对文本生成图像(T2I)和图像生成图像(I2I)任务,系统分析了10个评估维度(如真实感、原创性、美学等)之间的132种权衡关系。TRIG-Bench包含40,200个样本,通过成对维度子集设计实现细粒度评估。创新的TRIGScore利用视觉语言模型进行维度独立评分,并原创 2025-08-12 19:07:11 · 1061 阅读 · 0 评论 -
Diffusion【4】:DDIM
DDPM 在生成高分辨率图像的时候,需要的时间太长。DDIM 省去了其中一些不必要的步骤,实现生成速度的大幅度提升。本文主要侧重于对论文的翻译和部分解读,希望能粗略的带大家理解本文具体做了一个什么事情。若想理解每一步数学公式的推导建议仔细阅读苏剑林老师的博客。苏神博客**去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPMs)**是一类强大的生成模型,其构造基于正向的扩散过程和对应的反向去噪过程。原创 2024-11-24 10:45:00 · 1240 阅读 · 0 评论 -
Diffusion【2】:VQ-VAE
VQ-VAE 在最近的许多生成模型中都有相关的应用,针对自回归模型的固有毛病,VQ-VAE 提出的解决方案是:先降维,然后再对编码向量用 PixelCNN 建模。本文主要侧重于对论文的翻译和部分解读,希望能粗略的带大家理解本文具体做了一个什么事情。若想理解每一步数学公式的推导建议仔细阅读苏剑林老师的博客。苏神博客问题背景在无监督学习中,获得“有用的表示”一直是一个关键问题。生成模型需要在学习数据的潜在结构(latent structure)的同时生成高质量样本。原创 2024-11-22 10:30:00 · 1166 阅读 · 0 评论 -
Work【1】:SDSeg——基于Stable Diffusion的单步扩散分割!
本文提出了 SDSeg,一个利用稳定扩散进行医学图像分割的新颖高效框架。我们引入了一种潜在估计策略,实现了单步潜在预测,从而消除了多步逆向过程的需求。模型采用串联潜在融合,将学习到的图像潜在有效地引导分割任务。此外,可训练的视觉编码器增强了模型学习图像特征并适应多样化图像模态的能力。SDSeg 在五个分割数据集上实现了最先进的性能,显著减少了训练资源需求,加速了推理过程,并保持了卓越的稳定性。原创 2024-07-15 12:45:23 · 2367 阅读 · 0 评论 -
Diffusion【1】:VAE
VAE 可以说是最近大热的生成模型的重要基石。本文侧重对论文内容的翻译和一定程度上的解释。若想完全弄懂 VAE 的具体流程和数学公式推导,建议大家移步苏剑林老师的博客。苏神博客本文主要探讨了在概率模型中处理潜在变量推断的难点。后验分布的不可解性:当模型的后验分布无法通过解析或简单的数值方法计算时,标准方法如期望最大化(EM)或常规变分贝叶斯方法可能无法适用。大规模数据处理:面对大规模数据集时,传统的批量优化或采样方法(如MCMC)变得计算代价高昂。为了解决上述问题,作者提出了。原创 2024-11-21 10:01:17 · 437 阅读 · 0 评论