Text2Video-Zero:Text-to-Image Diffusion Models are Zero-Shot Video Generators

Text2Video-Zero利用文本到图像扩散模型,如Stable Diffusion,无需额外数据训练就能生成连贯的视频。通过在latent code中编码运动动力学和使用跨帧注意力,解决了帧间一致性问题。这种方法不仅适用于零样本视频生成,还可应用于条件和内容特定的视频生成、视频编辑任务。

【AIGC-AI视频生成系列-文章1】Text2Video-Zero - 知乎一句话亮点:当文本-视频生成也不需要额外数据训练,只需要基于现有的diffusion-model 如Stable Diffusion能力调整即可实现,解决生成视频帧间不一致问题,是不是很心动。 文章链接:Text-to-Image Diffusion Mode…https://zhuanlan.zhihu.com/p/626777733

0.abstract

本文不需要额外数据训练,利用现有的文本到图像合成能力,例如stable diffusion,可以解决帧间不一致的问题。调整包括两方面:1.使用motion dynamics丰富真的latent code,以保持全局场景和背景的一致性。2.重新编程帧间self-attention,使用每个帧对第一个帧的cross-frame attention来保留前景对象的co

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值