toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,049个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

CVPR 2026 | STAGE:让 AI 视频从「做动图」进化到「拍电影」

2026/03/22
·toolin小编

北邮、北大团队提出 STAGE 框架,通过预测「起始-结束帧对」解决多镜头视频连贯性问题,已录用至 CVPR 2026。

CVPR 2026 | STAGE:让 AI 视频从「做动图」进化到「拍电影」
CVPR 2026 | STAGE:让 AI 视频从「做动图」进化到「拍电影」
2026/03/22

CVPR 2026 | STAGE:让 AI 视频从「做动图」进化到「拍电影」

北邮、北大团队提出 STAGE 框架,通过预测「起始-结束帧对」解决多镜头视频连贯性问题,已录用至 CVPR 2026。

问题:现有方法为什么会「穿帮」?1. 端到端「一镜到底」2. 关键帧「分步走」核心创新:用「起始-结束帧对」重构叙事1. 长程叙事有「骨架」2. 镜头内部有「航向」3. 镜头衔接有「电影感」技术架构:STEP2 模型三大核心机制数据集:ConStoryBoard实验效果:全面超越现有方法视觉对比定量指标如何使用?Toolin 点评
AI产品

Sora、可灵、Seedance 2.0……AI 视频生成的视觉质量已经惊艳,但当你尝试用它们创作一个完整故事时,会发现一个致命问题:镜头切换时经常「穿帮」。

前一秒主角还穿红衣,下一秒就换了颜色;一个流畅的开箱动作,在特写镜头里却变成了「瞬移」。这些问题的根源在于:AI 只会「画单帧」,不会「拍分镜」。

北京邮电大学、北京大学和智源研究院的团队提出了 STAGE 框架,通过引入电影分镜的概念,让 AI 学会用镜头讲故事。论文已录用至 CVPR 2026。

STAGE 效果对比

问题:现有方法为什么会「穿帮」?

目前主流的多镜头视频生成方法分两派:

1. 端到端「一镜到底」

计算成本极高,过程像「开盲盒」,难以控制。稍有不慎就满盘皆输。

2. 关键帧「分步走」

先生成几个关键画面作为「路标」,再让视频模型去「脑补」中间过程。

第二种方法更灵活,但问题也随之而来:模型只知道每个镜头「大概长啥样」,却不懂得镜头与镜头之间该如何「衔接」。

现有方法的问题

核心创新:用「起始-结束帧对」重构叙事

STAGE 的核心思路是:不再预测孤立的关键帧,而是直接生成每个镜头的「第一帧」和「最后一帧」。

这个看似简单的改变,带来了三大优势:

1. 长程叙事有「骨架」

所有镜头的起始/结束帧串联起来,形成稳固的视觉骨架,确保角色、场景在整个故事中的长期一致性。

2. 镜头内部有「航向」

起始帧和结束帧明确定义了镜头内部的动态变化,无论是人物走位还是镜头推拉,都有了清晰的起点和终点。

3. 镜头衔接有「电影感」

上一个镜头的「结束帧」和下一个镜头的「起始帧」之间的关系,直接对「转场」这一电影语言进行建模。

技术架构:STEP2 模型

STAGE 的核心是 STEP2(STart-End frame-Pair Prediction)模型,它像一位 AI 导演,能将文字剧本翻译成可执行的视觉分镜。

STEP2 架构

三大核心机制

1. 多镜头记忆包(Multi-shot Memory Pack) 将所有历史镜头的视觉信息压缩成紧凑的「记忆包」,在保证长期一致性的同时避免巨大的计算开销。

2. 双重编码策略(Dual-Encoding Strategy) 将一个镜头的起始帧和结束帧「捆绑」在一起进行联合编码,让模型在生成之初就对整个镜头的动态了然于胸。

3. 两阶段训练方案(Two-stage Training)

  • 第一阶段(SFT):在海量电影片段上学习基础镜头语言
  • 第二阶段(DPO):用人类精选的「好/坏」转场案例进行「阅片」训练,学会什么是「高级的、电影感的」转场

数据集:ConStoryBoard

团队构建了包含 10 万个高质量多镜头片段的数据集,每个镜头都标注了:

  • 起始-结束帧对
  • 故事进展描述
  • 镜头尺度、机位、运镜等电影学属性

还从中挑选出最优转场案例,构建了 ConStoryBoard-HP 子集,专门用于第二阶段的「品味」训练。

实验效果:全面超越现有方法

视觉对比

在「火车上的女人」主题下,其他方法出现了场景不一致、风格失真、动作断裂等问题。STAGE 则完美保持了人物和环境的一致性。

视觉对比

定量指标

在多个评测维度上,STAGE 均显著优于 CineTrans、StoryDiffusion、VideoGen-of-Thought 等 SOTA 方法。

如何使用?

项目代码和数据集将逐步开源:

git clone https://github.com/escapistmost/Storyboard-Anchored-Generation
cd Storyboard-Anchored-Generation
pip install -r requirements.txt

Toolin 点评

适合谁?

  • 视频创作者:需要生成多镜头叙事视频的内容创作者
  • AI 研究者:研究视频生成、叙事连贯性的学术团队
  • 影视工作者:需要快速生成分镜预览的导演、编剧

不适合谁?

  • 只需要单镜头短视频的用户(用 Sora 等工具更简单)
  • 对实时性要求极高的场景(多镜头生成仍需较长时间)

核心优势:

  1. 连贯性强:通过分镜建模,彻底解决镜头切换时的「穿帮」问题
  2. 可控性高:起始-结束帧对提供了明确的控制点
  3. 电影感强:两阶段训练让模型学会了专业的转场技巧

潜在限制:

  • 代码尚未完全开源,需要等待后续更新
  • 对计算资源要求较高,个人用户可能难以部署

未来展望: 团队提到未来可能引入 Agent 工作流,打造自动化环境构建流程,并扩展到更多任务场景(如 Terminal Bench、Skill Bench)。


相关链接:

  • 论文:https://arxiv.org/abs/2602.11210(待发布)
  • GitHub:https://github.com/escapistmost/Storyboard-Anchored-Generation
  • 作者单位:北京邮电大学、北京大学、北京智源人工智能研究院
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
问题:现有方法为什么会「穿帮」?1. 端到端「一镜到底」2. 关键帧「分步走」核心创新:用「起始-结束帧对」重构叙事1. 长程叙事有「骨架」2. 镜头内部有「航向」3. 镜头衔接有「电影感」技术架构:STEP2 模型三大核心机制数据集:ConStoryBoard实验效果:全面超越现有方法视觉对比定量指标如何使用?Toolin 点评

相关文章

DeepSeek-TUI:终端里的DeepSeek编程Agent
AI产品

DeepSeek-TUI:终端里的DeepSeek编程Agent

GitHub 2.3k星的DeepSeek-TUI,用Rust编写的终端编程工具,针对DeepSeek V4优化,支持100万token上下文、多子Agent并行、三种操作模式。

avatar for toolin小编
toolin小编
11小时前
AI生图模型怎么选:Image-2、豆包、可灵风格对比
AI产品

AI生图模型怎么选:Image-2、豆包、可灵风格对比

同样一个提示词丢给不同AI生图模型,出来的风格天差地别。本文对比Image-2、Nano Banana 2、豆包/即梦、可灵的视觉特点,帮你快速选对模型。

avatar for toolin小编
toolin小编
11小时前
Mintlify:面向AI时代的文档工具
AI产品

Mintlify:面向AI时代的文档工具

估值5亿美元的AI文档平台,让技术文档既能让人类阅读,也能被AI直接理解和调用

avatar for toolin小编
toolin小编
2天前