【生成模型之十一】Blended Latent Diffusion

代码:https://github.com/omriav/blended-latent-diffusion/tree/master 

服务:简历修改、面试辅导可以私戳~

在本文中,我们提出了一种加速解决方案,用于通用图像的局部文本驱动编辑任务,其中所需的编辑仅限于用户提供的掩码。我们的解决方案利用了文本到图像的潜在扩散模型(LDM),该模型通过在低维潜在空间中操作来加速扩散,并消除了在每个扩散步骤进行资源密集型CLIP梯度计算的需要。我们首先使LDM能够通过在每个步骤blend latent来执行局部图像编辑,类似于Blended Diffusion。接下来,我们提出了一种基于优化的解决方案,以解决LDM固有的无法准确重建图像的问题。最后,我们讨论了使用mask执行局部编辑的场景。

一、Background

绝大多数text-guidance文本引导方法都侧重于从头开始生成图像或在全局范围内操纵现有图像。尽管这种用例在实践中无处不在,但艺术家只对修改通用图像的一部分感兴趣,同时保留其余部分的本地编辑场景并没有得到那么多的关注。迄今为止,我们只知道三种明确解决局部编辑问题的方法:Blend Diffusion、GLIDE和DALL·E 2。其中,只有Blend Diffusion是完整公开的。

在这项工作中,我们利用LDM的优

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jeremy_lf

你的鼓励是我的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值