High-Resolution Image Synthesis with Latent Diffusion Models
What’s the problem addressed in the paper?(这篇文章究竟讲了什么问题?比方说一个算法,它的 input 和 output 是什么?问题的条件是什么)
- 这篇文章提出了一种合成高分辨率图片的潜在空间扩散模型(LDM),解决了在像素空间中优化Diffusion Models时面临的高计算开销问题。
- 下图是LDM的结构流程图,从左到右的三个模块分别是:感知图片压缩(Perceptual Image Compression),潜在扩散模型(Latent Diffusion Model),和条件机制模块(Condition mechanism)。首先,原始图片 x x x在像素空间中被感知压缩模型压缩为潜在空间特征 z z z,然后,Unet通过扩散过程(向 z z z中添加噪声和去除噪声)重构了潜在空间特征