CVPR 2026 | STAGE：让 AI 视频从「做动图」进化到「拍电影」

Sora、可灵、Seedance 2.0……AI 视频生成的视觉质量已经惊艳，但当你尝试用它们创作一个完整故事时，会发现一个致命问题：镜头切换时经常「穿帮」。

前一秒主角还穿红衣，下一秒就换了颜色；一个流畅的开箱动作，在特写镜头里却变成了「瞬移」。这些问题的根源在于：AI 只会「画单帧」，不会「拍分镜」。

北京邮电大学、北京大学和智源研究院的团队提出了 STAGE 框架，通过引入电影分镜的概念，让 AI 学会用镜头讲故事。论文已录用至 CVPR 2026。

STAGE 效果对比

问题：现有方法为什么会「穿帮」？

目前主流的多镜头视频生成方法分两派：

1. 端到端「一镜到底」

计算成本极高，过程像「开盲盒」，难以控制。稍有不慎就满盘皆输。

2. 关键帧「分步走」

先生成几个关键画面作为「路标」，再让视频模型去「脑补」中间过程。

第二种方法更灵活，但问题也随之而来：模型只知道每个镜头「大概长啥样」，却不懂得镜头与镜头之间该如何「衔接」。

现有方法的问题

核心创新：用「起始-结束帧对」重构叙事

STAGE 的核心思路是：不再预测孤立的关键帧，而是直接生成每个镜头的「第一帧」和「最后一帧」。

这个看似简单的改变，带来了三大优势：

1. 长程叙事有「骨架」

所有镜头的起始/结束帧串联起来，形成稳固的视觉骨架，确保角色、场景在整个故事中的长期一致性。

2. 镜头内部有「航向」

起始帧和结束帧明确定义了镜头内部的动态变化，无论是人物走位还是镜头推拉，都有了清晰的起点和终点。

3. 镜头衔接有「电影感」

上一个镜头的「结束帧」和下一个镜头的「起始帧」之间的关系，直接对「转场」这一电影语言进行建模。

技术架构：STEP2 模型

STAGE 的核心是 STEP2（STart-End frame-Pair Prediction）模型，它像一位 AI 导演，能将文字剧本翻译成可执行的视觉分镜。

STEP2 架构

三大核心机制

1. 多镜头记忆包（Multi-shot Memory Pack） 将所有历史镜头的视觉信息压缩成紧凑的「记忆包」，在保证长期一致性的同时避免巨大的计算开销。

2. 双重编码策略（Dual-Encoding Strategy） 将一个镜头的起始帧和结束帧「捆绑」在一起进行联合编码，让模型在生成之初就对整个镜头的动态了然于胸。

3. 两阶段训练方案（Two-stage Training）

第一阶段（SFT）：在海量电影片段上学习基础镜头语言
第二阶段（DPO）：用人类精选的「好/坏」转场案例进行「阅片」训练，学会什么是「高级的、电影感的」转场

数据集：ConStoryBoard

团队构建了包含 10 万个高质量多镜头片段的数据集，每个镜头都标注了：

起始-结束帧对
故事进展描述
镜头尺度、机位、运镜等电影学属性

还从中挑选出最优转场案例，构建了 ConStoryBoard-HP 子集，专门用于第二阶段的「品味」训练。

实验效果：全面超越现有方法

视觉对比

在「火车上的女人」主题下，其他方法出现了场景不一致、风格失真、动作断裂等问题。STAGE 则完美保持了人物和环境的一致性。

视觉对比

定量指标

在多个评测维度上，STAGE 均显著优于 CineTrans、StoryDiffusion、VideoGen-of-Thought 等 SOTA 方法。

如何使用？

项目代码和数据集将逐步开源：

git clone https://github.com/escapistmost/Storyboard-Anchored-Generation
cd Storyboard-Anchored-Generation
pip install -r requirements.txt

Toolin 点评

适合谁？

视频创作者：需要生成多镜头叙事视频的内容创作者
AI 研究者：研究视频生成、叙事连贯性的学术团队
影视工作者：需要快速生成分镜预览的导演、编剧

不适合谁？

只需要单镜头短视频的用户（用 Sora 等工具更简单）
对实时性要求极高的场景（多镜头生成仍需较长时间）

核心优势：

连贯性强：通过分镜建模，彻底解决镜头切换时的「穿帮」问题
可控性高：起始-结束帧对提供了明确的控制点
电影感强：两阶段训练让模型学会了专业的转场技巧

潜在限制：

代码尚未完全开源，需要等待后续更新
对计算资源要求较高，个人用户可能难以部署

未来展望：团队提到未来可能引入 Agent 工作流，打造自动化环境构建流程，并扩展到更多任务场景（如 Terminal Bench、Skill Bench）。

相关链接：

论文：https://arxiv.org/abs/2602.11210（待发布）
GitHub：https://github.com/escapistmost/Storyboard-Anchored-Generation
作者单位：北京邮电大学、北京大学、北京智源人工智能研究院

北京邮电大学、北京大学和智源研究院的团队提出了 STAGE 框架，通过引入电影分镜的概念，让 AI 学会用镜头讲故事。论文已录用至 CVPR 2026。

STAGE 效果对比

问题：现有方法为什么会「穿帮」？

目前主流的多镜头视频生成方法分两派：

1. 端到端「一镜到底」

计算成本极高，过程像「开盲盒」，难以控制。稍有不慎就满盘皆输。

2. 关键帧「分步走」

先生成几个关键画面作为「路标」，再让视频模型去「脑补」中间过程。

第二种方法更灵活，但问题也随之而来：模型只知道每个镜头「大概长啥样」，却不懂得镜头与镜头之间该如何「衔接」。

现有方法的问题

核心创新：用「起始-结束帧对」重构叙事

STAGE 的核心思路是：不再预测孤立的关键帧，而是直接生成每个镜头的「第一帧」和「最后一帧」。

这个看似简单的改变，带来了三大优势：

1. 长程叙事有「骨架」

所有镜头的起始/结束帧串联起来，形成稳固的视觉骨架，确保角色、场景在整个故事中的长期一致性。

2. 镜头内部有「航向」

起始帧和结束帧明确定义了镜头内部的动态变化，无论是人物走位还是镜头推拉，都有了清晰的起点和终点。

3. 镜头衔接有「电影感」

上一个镜头的「结束帧」和下一个镜头的「起始帧」之间的关系，直接对「转场」这一电影语言进行建模。

技术架构：STEP2 模型

STAGE 的核心是 STEP2（STart-End frame-Pair Prediction）模型，它像一位 AI 导演，能将文字剧本翻译成可执行的视觉分镜。

STEP2 架构

三大核心机制

1. 多镜头记忆包（Multi-shot Memory Pack） 将所有历史镜头的视觉信息压缩成紧凑的「记忆包」，在保证长期一致性的同时避免巨大的计算开销。

3. 两阶段训练方案（Two-stage Training）

第一阶段（SFT）：在海量电影片段上学习基础镜头语言
第二阶段（DPO）：用人类精选的「好/坏」转场案例进行「阅片」训练，学会什么是「高级的、电影感的」转场

数据集：ConStoryBoard

团队构建了包含 10 万个高质量多镜头片段的数据集，每个镜头都标注了：

起始-结束帧对
故事进展描述
镜头尺度、机位、运镜等电影学属性

还从中挑选出最优转场案例，构建了 ConStoryBoard-HP 子集，专门用于第二阶段的「品味」训练。

实验效果：全面超越现有方法

视觉对比

在「火车上的女人」主题下，其他方法出现了场景不一致、风格失真、动作断裂等问题。STAGE 则完美保持了人物和环境的一致性。

视觉对比

定量指标

在多个评测维度上，STAGE 均显著优于 CineTrans、StoryDiffusion、VideoGen-of-Thought 等 SOTA 方法。

如何使用？

项目代码和数据集将逐步开源：

git clone https://github.com/escapistmost/Storyboard-Anchored-Generation
cd Storyboard-Anchored-Generation
pip install -r requirements.txt

Toolin 点评

适合谁？

视频创作者：需要生成多镜头叙事视频的内容创作者
AI 研究者：研究视频生成、叙事连贯性的学术团队
影视工作者：需要快速生成分镜预览的导演、编剧

不适合谁？

只需要单镜头短视频的用户（用 Sora 等工具更简单）
对实时性要求极高的场景（多镜头生成仍需较长时间）

核心优势：

连贯性强：通过分镜建模，彻底解决镜头切换时的「穿帮」问题
可控性高：起始-结束帧对提供了明确的控制点
电影感强：两阶段训练让模型学会了专业的转场技巧

潜在限制：

代码尚未完全开源，需要等待后续更新
对计算资源要求较高，个人用户可能难以部署

未来展望：团队提到未来可能引入 Agent 工作流，打造自动化环境构建流程，并扩展到更多任务场景（如 Terminal Bench、Skill Bench）。

相关链接：

论文：https://arxiv.org/abs/2602.11210（待发布）
GitHub：https://github.com/escapistmost/Storyboard-Anchored-Generation
作者单位：北京邮电大学、北京大学、北京智源人工智能研究院

全部

AI教程

AI产品

AI资源

CVPR 2026 | STAGE：让 AI 视频从「做动图」进化到「拍电影」

CVPR 2026 | STAGE：让 AI 视频从「做动图」进化到「拍电影」

作者

分类

相关文章

DeepSeek-TUI：终端里的DeepSeek编程Agent

AI生图模型怎么选：Image-2、豆包、可灵风格对比

Mintlify：面向AI时代的文档工具

CVPR 2026 | STAGE：让 AI 视频从「做动图」进化到「拍电影」

CVPR 2026 | STAGE：让 AI 视频从「做动图」进化到「拍电影」

作者

分类

相关文章

DeepSeek-TUI：终端里的DeepSeek编程Agent

AI生图模型怎么选：Image-2、豆包、可灵风格对比

Mintlify：面向AI时代的文档工具