主要参考资料
B站视频《Sora 夜谈之 Video Diffusion 综述》
图像Diffusion模型发展脉络
相较于直接在图像层Pixel space加噪和降噪,Latent Diffusion则通过编码增加了一层Latent层,在比较低的维度上计算,节省了计算资源。
而Stable diffusion就是其中最有名的一个开源模型。
右下角是Stable Diffusion XL与其他版本的比较。
ControlNet则是提供了其他模态,比如sketch或者骨骼图生成想要的效果。
视频Diffusion模型发展脉络
这是2022谷歌的第一个视频扩散模型,只能生成64×64,16帧的视频。