【AI论文】电影队长：迈向短片生成领域

最新推荐文章于 2025-08-01 15:57:00 发布

原创最新推荐文章于 2025-08-01 15:57:00 发布 · 447 阅读

CC 4.0 BY-SA版权

文章标签：

摘要：我们推出“电影队长”（Captain Cinema）这一短片生成框架。给定电影故事情节的详细文字描述后，我们的方法首先会生成一系列勾勒整个叙事脉络的关键帧，确保故事情节和视觉表现（如场景和角色）的长期连贯性。我们将此步骤称为自上而下的关键帧规划。然后，这些关键帧将作为视频合成模型的条件信号，该模型支持长上下文学习，可生成关键帧之间的时空动态。这一步骤被称为自下而上的视频合成。为了支持多场景长叙事电影作品的稳定高效生成，我们为多模态扩散变换器（Multimodal Diffusion Transformers，MM-DiT）引入了一种交错训练策略，该策略专门针对长上下文视频数据进行了适配。我们的模型是在一个由交错数据对组成的、经过特别策划的电影数据集上进行训练的。实验表明，“电影队长”在高质量、高效率地自动创作视觉连贯、叙事一致的短片方面表现出色。项目页面：https://thecinema.ai。Huggingface链接：Paper page，论文链接：2507.18634

研究背景和目的

研究背景：
随着深度学习和人工智能技术的飞速发展，视频生成技术已成为计算机视觉和多媒体领域的研究热点。近年来，基于扩散模型（Diffusion Models）和自回归模型（Auto-regressive Models）的视频生成技术取得了显著进展，尤其在短视频片段的生成上，实现了高质量和视觉逼真的效果。然而，这些技术主要聚焦于生成视觉上可信但叙事上往往片段化、不连贯的视频片段，难以生成具有完整叙事结构和长期连贯性的长视频或电影。

叙事是人类交流、记忆和感知世界的重要方式，长视频和电影作为叙事的重要媒介，其生成技术不仅要求视觉上的高质量，更需要在叙事上保持长期的连贯性和一致性。尽管已有一些研究尝试生成具有叙事结构的视频，但这些方法在处理长视频时仍面临诸多挑战，如上下文长度爆炸、故事情节断裂和视觉漂移等问题。因此，如何自动生成具有完整叙事结构和高度视觉一致性的长视频或电影，成为当前视频生成领域亟待解决的关键问题。

研究目的：
本研究旨在提出一种名为“电影队长”（Captain Cinema）的短片生成框架，通过结合自上而下的关键帧规划和自下而上的视频合成方法，实现具有完整叙事结构和高度视觉一致性的短片自动生成。具体目标包括：

开发一种能够生成长期连贯叙事关键帧序列的方法，确保故事情节和视觉表现的一致性。
设计一种支持长上下文学习的视频合成模型，能够根据关键帧序列生成时空动态。
引入交错训练策略，提高多模态扩散变换器（MM-DiT）在长视频数据上的稳定性和效率。
通过实验验证“电影队长”框架在自动生成高质量、高效率且叙事一致的短片方面的有效性。

研究方法

1. 关键帧生成方法：

自上而下的关键帧规划：首先，利用预训练的文本到图像模型（如Flux1.Dev）生成描述电影故事情节的详细文字描述对应的关键帧序列。通过引入混合注意力掩码机制（Hybrid Attention Masking），在MM-DiT模型中实现局部和全局注意力的平衡，确保关键帧生成的稳定性和效率。
GoldenMem记忆机制：为了处理长上下文视频数据，提出GoldenMem机制，通过逆斐波那契数列下采样历史视觉上下文，选择性保留和压缩关键信息，从而在有限的内存预算内保持长期上下文的一致性。

2. 视频合成方法：

自下而上的视频合成：以生成的关键帧作为条件信号，利用支持长上下文学习的视频合成模型（如Seaweed-3B）生成关键帧之间的时空动态。通过多帧交错条件生成，确保生成视频在叙事和视觉上的一致性。
渐进式长上下文微调：为了稳定训练过程，采用渐进式长上下文微调策略，从短上下文逐渐扩展到长上下文，避免模型崩溃和知识遗忘问题。

3. 交错训练策略：