Video generation models as world simulators:作为世界模拟器的视频生成模型
- 1、概览
- 2、Turning visual data into patches:将视觉数据转换为补丁
- 3、Video compression network:视频压缩网络
- 4、Spacetime Latent Patches:时空潜在补丁
- 5、Scaling transformers for video generation:用于视频生成的缩放变压器
- 6、Variable durations, resolutions, aspect ratios:可变持续时间、分辨率、纵横比
- 7、Language understanding:语言理解
- 8、Prompting with images and videos:使用图像和视频进行提示
- 9、Image generation capabilities:图像生成能力
- 10、Emerging simulation capabilities:新兴的模拟能力
- 11、Discussion:讨论
1、概览
本技术报告侧重于:
(1)我们将所有类型的视觉数据转化为统一表示的方法,该方法能够对生成模型进行大规模训练。
(2)对Sora的能力和局限性进行定性评估。模型和实施细节未包含在本报告中。
许多先前的工作已经使用各种方法研究了视频数据的生成建模,包括:
递归网络、
生成对抗性网络、
自回归变换器、
和扩散模型。
这些工作通常关注一小类视觉数据、较短的视频或固定大小的视频。
Sora是一个通用的视觉数据模型,它可以生成不同持续时间、宽高比和分辨率的视频和图像,最高可达一分钟的高清视频。
这里OpenAI声称:Sora已经可以较稳定地生成60s连贯长视频。
2、Turning visual data into patches:将视觉数据转换为补丁
我们从大型语言模型中获得灵感,这些模型通过在互联网规模的数据上进行训练来获得通才能力。LLM范式的成功部分归功于使用了巧妙地统一了文本的各种形式——代码、数学和各种自然语言——的令牌。在这项工作中,我们考虑视觉数据的生成模型如何继承这些优势。LLM有文本标记,而Sora有视觉补丁。补丁先前已被证明是视觉数据模型的有效表示。
我们发现补丁是在不同类型的视频和图像上训练生成模型的高度可扩展和有效的表示。
在高水平上,我们通过首先将视频压缩到较低维度的潜在空间中,然后将表示分解为时空补丁,将视频转化为补丁。
值得注意的是,与传统的压缩空间不同,它是对时间维度进行压缩。这也就很好解释了为什么它可以生成60s的长视频。
3、Video compression network:视频压缩网络
我们训练了一个降低视觉数据维度的网络。
这个网络以原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示。
Sora在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了一个相应的解码器模型,该模型将生成的延迟映射回像素空间。
4、Spacetime Latent Patches:时空潜在补丁
给定压缩的输入视频,我们提取一系列时空补丁,这些补丁充当变换器令牌。这种方案也适用于图像,因为图像只是具有单个帧的视频。
我们基于补丁的表示使Sora能够在不同分辨率、持续时间和纵横比的视频和图像上进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。(也就是说Sora支持不同分辨率,不同时长不同横竖比的视频训练及