摘要:我们推出“电影队长”(Captain Cinema)这一短片生成框架。给定电影故事情节的详细文字描述后,我们的方法首先会生成一系列勾勒整个叙事脉络的关键帧,确保故事情节和视觉表现(如场景和角色)的长期连贯性。我们将此步骤称为自上而下的关键帧规划。然后,这些关键帧将作为视频合成模型的条件信号,该模型支持长上下文学习,可生成关键帧之间的时空动态。这一步骤被称为自下而上的视频合成。为了支持多场景长叙事电影作品的稳定高效生成,我们为多模态扩散变换器(Multimodal Diffusion Transformers,MM-DiT)引入了一种交错训练策略,该策略专门针对长上下文视频数据进行了适配。我们的模型是在一个由交错数据对组成的、经过特别策划的电影数据集上进行训练的。实验表明,“电影队长”在高质量、高效率地自动创作视觉连贯、叙事一致的短片方面表现出色。项目页面:https://thecinema.ai。Huggingface链接:Paper page,论文链接:2507.18634
研究背景和目的
研究背景:
随着深度学习和人工智能技术的飞速发展,视频生成技术已成为计算机视觉和多媒体领域的研究热点。近年来,基于扩散模型(Diffusion Models)和自回归模型(Auto-regressive Models)的视频生成技术取得了显著进展,尤其在短视频片段的生成上,实现了高质量和视觉逼真的效果。然而,这些技术主要聚焦于生成视觉上可信但叙事上往往片段化、不连贯的视频片段,难以生成具有完整叙事结构和长期连贯性的长视频或电影。
叙事是人类交流、记忆和感知世界的重要方式,长视频和电影作为叙事的重要媒介,其生成技术不仅要求视觉上的高质量,更需要在叙事上保持长期的连贯性和一致性。尽管已有一些研究尝试生成具有叙事结构的视频,但这些方法在处理长视频时仍面临诸多挑战,如上下文长度爆炸、故事情节断裂和视觉漂移等问题。因此,如何自动生成具有完整叙事结构和高度视觉一致性的长视频或电影,成为当前视频生成领域亟待解决的关键问题。
研究目的:
本研究旨在提出一种名为“电影队长”(Captain Cinema)的短片生成框架,通过结合自上而下的关键帧规划和自下而上的视频合成方法,实现具有完整叙事结构和高度视觉一致性的短片自动生成。具体目标包括:
- 开发一种能够生成长期连贯叙事关键帧序列的方法,确保故事情节和视觉表现的一致性。
- 设计一种支持长上下文学习的视频合成模型,能够根据关键帧序列生成时空动态。
- 引入交错训练策略,提高多模态扩散变换器(MM-DiT)在长视频数据上的稳定性和效率。
- 通过实验验证“电影队长”框架在自动生成高质量、高效率且叙事一致的短片方面的有效性。
研究方法
1. 关键帧生成方法:
- 自上而下的关键帧规划:首先,利用预训练的文本到图像模型(如Flux1.Dev)生成描述电影故事情节的详细文字描述对应的关键帧序列。通过引入混合注意力掩码机制(Hybrid Attention Masking),在MM-DiT模型中实现局部和全局注意力的平衡,确保关键帧生成的稳定性和效率。
- GoldenMem记忆机制:为了处理长上下文视频数据,提出GoldenMem机制,通过逆斐波那契数列下采样历史视觉上下文,选择性保留和压缩关键信息,从而在有限的内存预算内保持长期上下文的一致性。
2. 视频合成方法:
- 自下而上的视频合成:以生成的关键帧作为条件信号,利用支持长上下文学习的视频合成模型(如Seaweed-3B)生成关键帧之间的时空动态。通过多帧交错条件生成,确保生成视频在叙事和视觉上的一致性。
- 渐进式长上下文微调:为了稳定训练过程,采用渐进式长上下文微调策略,从短上下文逐渐扩展到长上下文,避免模型崩溃和知识遗忘问题。
3. 交错训练策略:
- 针对长视频数据,设计了一种交错训练策略,通过动态步长采样方法生成数千倍的有效数据序列,提高模型在长上下文视频数据上的泛化能力和鲁棒性。
4. 数据集和评估方法:
- 数据集:收集并处理了约500小时的电影数据,生成交错的关键帧-文本对和镜头-文本对,用于训练和评估模型。
- 评估方法:采用自动化指标(如VBench-2.0)和用户研究相结合的方式,评估生成视频在视觉质量、时间一致性、语义对齐等方面的表现。
研究结果
1. 自动化指标评估:
- 在视觉质量、时间一致性、语义对齐和用户研究等方面,Captain Cinema框架的表现均优于基线方法(如LCT和IC-LoRA+I2V)。具体来说,在视觉质量上,Captain Cinema的得分比基线方法高出约3-5分;在时间一致性上,得分高出约5-7分;在语义对齐上,得分高出约4-6分。
2. 用户研究:
- 用户研究采用4点量表(非常好、好、差、非常差)进行评估,重点关注语义对齐和整体视觉质量。结果显示,用户对Captain Cinema生成的视频在语义对齐和视觉质量上的评分均显著高于基线方法。
3. 长上下文压力测试:
- 在长上下文压力测试中,Captain Cinema框架在上下文长度从8扩展到48时,仍能保持较高的视觉一致性、视觉质量、多样性和叙事连贯性。相比之下,基线方法在上下文长度增加时,质量显著下降。
4. 泛化能力:
- Captain Cinema框架展示了强大的泛化能力,能够生成训练数据中未出现的创意场景和跨电影角色交换视频。例如,将蝙蝠侠和阿尔弗雷德·潘尼沃斯插入到《星际穿越》的科幻环境中,并保持视觉和叙事上的一致性。
研究局限
1. 缺乏图像到视频的端到端训练:
- 由于内存和基础设施的限制,目前的研究将帧级别和视频级别的模块分开训练,然后将生成的帧作为视频合成的条件输入。端到端的优化理论上可行,但实际操作中面临诸多挑战。
2. 依赖外部提示:
- 模型尚不能自主构思叙事,依赖人类作者或大型语言模型提供的文本提示。未来需要集成更先进的多模态大语言模型,实现自主叙事生成。
3. 数据饥饿:
- 高质量、长篇幅的电影数据集稀缺,限制了模型的泛化能力。未来需要更大规模的语料库和架构优化,以提高模型的泛化性能。
未来研究方向
1. 端到端优化:
- 探索端到端的优化方法,将帧级别和视频级别的生成过程统一到一个模型中,进一步提高生成视频的质量和一致性。
2. 自主叙事生成:
- 集成先进的多模态大语言模型,使模型能够自主构思叙事,减少对外部文本提示的依赖。
3. 更大规模的语料库和架构优化:
- 收集更大规模的高质量电影数据集,优化模型架构,提高模型的泛化能力和鲁棒性。
4. 多语言和多文化支持:
- 扩展模型以支持多语言和多文化的叙事生成,满足全球不同用户的需求。
5. 实时生成和交互式编辑:
- 研究实时生成和交互式编辑技术,使用户能够实时参与视频生成过程,提高创作的灵活性和趣味性。
6. 伦理和社会影响:
- 深入研究视频生成技术的伦理和社会影响,制定相应的使用政策和规范,确保技术的健康发展和应用。
本研究提出的“电影队长”框架为短片自动生成提供了一种有效的方法,未来通过持续的研究和优化,有望在这一领域取得更大的突破。