toolin.ai logo
toolin.ai
首页
所有AI工具
AI技能包
AI教程
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具738个
技能包11个
产品功能
  • 所有AI工具
  • AI技能包
  • AI教程
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策
CVPR 2026 | STAGE:让 AI 视频从「做动图」进化到「拍电影」
2026/03/22

CVPR 2026 | STAGE:让 AI 视频从「做动图」进化到「拍电影」

北邮、北大团队提出 STAGE 框架,通过预测「起始-结束帧对」解决多镜头视频连贯性问题,已录用至 CVPR 2026。

Sora、可灵、Seedance 2.0……AI 视频生成的视觉质量已经惊艳,但当你尝试用它们创作一个完整故事时,会发现一个致命问题:镜头切换时经常「穿帮」。

前一秒主角还穿红衣,下一秒就换了颜色;一个流畅的开箱动作,在特写镜头里却变成了「瞬移」。这些问题的根源在于:AI 只会「画单帧」,不会「拍分镜」。

北京邮电大学、北京大学和智源研究院的团队提出了 STAGE 框架,通过引入电影分镜的概念,让 AI 学会用镜头讲故事。论文已录用至 CVPR 2026。

STAGE 效果对比

问题:现有方法为什么会「穿帮」?

目前主流的多镜头视频生成方法分两派:

1. 端到端「一镜到底」

计算成本极高,过程像「开盲盒」,难以控制。稍有不慎就满盘皆输。

2. 关键帧「分步走」

先生成几个关键画面作为「路标」,再让视频模型去「脑补」中间过程。

第二种方法更灵活,但问题也随之而来:模型只知道每个镜头「大概长啥样」,却不懂得镜头与镜头之间该如何「衔接」。

现有方法的问题

核心创新:用「起始-结束帧对」重构叙事

STAGE 的核心思路是:不再预测孤立的关键帧,而是直接生成每个镜头的「第一帧」和「最后一帧」。

这个看似简单的改变,带来了三大优势:

1. 长程叙事有「骨架」

所有镜头的起始/结束帧串联起来,形成稳固的视觉骨架,确保角色、场景在整个故事中的长期一致性。

2. 镜头内部有「航向」

起始帧和结束帧明确定义了镜头内部的动态变化,无论是人物走位还是镜头推拉,都有了清晰的起点和终点。

3. 镜头衔接有「电影感」

上一个镜头的「结束帧」和下一个镜头的「起始帧」之间的关系,直接对「转场」这一电影语言进行建模。

技术架构:STEP2 模型

STAGE 的核心是 STEP2(STart-End frame-Pair Prediction)模型,它像一位 AI 导演,能将文字剧本翻译成可执行的视觉分镜。

STEP2 架构

三大核心机制

1. 多镜头记忆包(Multi-shot Memory Pack) 将所有历史镜头的视觉信息压缩成紧凑的「记忆包」,在保证长期一致性的同时避免巨大的计算开销。

2. 双重编码策略(Dual-Encoding Strategy) 将一个镜头的起始帧和结束帧「捆绑」在一起进行联合编码,让模型在生成之初就对整个镜头的动态了然于胸。

3. 两阶段训练方案(Two-stage Training)

  • 第一阶段(SFT):在海量电影片段上学习基础镜头语言
  • 第二阶段(DPO):用人类精选的「好/坏」转场案例进行「阅片」训练,学会什么是「高级的、电影感的」转场

数据集:ConStoryBoard

团队构建了包含 10 万个高质量多镜头片段的数据集,每个镜头都标注了:

  • 起始-结束帧对
  • 故事进展描述
  • 镜头尺度、机位、运镜等电影学属性

还从中挑选出最优转场案例,构建了 ConStoryBoard-HP 子集,专门用于第二阶段的「品味」训练。

实验效果:全面超越现有方法

视觉对比

在「火车上的女人」主题下,其他方法出现了场景不一致、风格失真、动作断裂等问题。STAGE 则完美保持了人物和环境的一致性。

视觉对比

定量指标

在多个评测维度上,STAGE 均显著优于 CineTrans、StoryDiffusion、VideoGen-of-Thought 等 SOTA 方法。

如何使用?

项目代码和数据集将逐步开源:

git clone https://github.com/escapistmost/Storyboard-Anchored-Generation
cd Storyboard-Anchored-Generation
pip install -r requirements.txt

Toolin 点评

适合谁?

  • 视频创作者:需要生成多镜头叙事视频的内容创作者
  • AI 研究者:研究视频生成、叙事连贯性的学术团队
  • 影视工作者:需要快速生成分镜预览的导演、编剧

不适合谁?

  • 只需要单镜头短视频的用户(用 Sora 等工具更简单)
  • 对实时性要求极高的场景(多镜头生成仍需较长时间)

核心优势:

  1. 连贯性强:通过分镜建模,彻底解决镜头切换时的「穿帮」问题
  2. 可控性高:起始-结束帧对提供了明确的控制点
  3. 电影感强:两阶段训练让模型学会了专业的转场技巧

潜在限制:

  • 代码尚未完全开源,需要等待后续更新
  • 对计算资源要求较高,个人用户可能难以部署

未来展望: 团队提到未来可能引入 Agent 工作流,打造自动化环境构建流程,并扩展到更多任务场景(如 Terminal Bench、Skill Bench)。


相关链接:

  • 论文:https://arxiv.org/abs/2602.11210(待发布)
  • GitHub:https://github.com/escapistmost/Storyboard-Anchored-Generation
  • 作者单位:北京邮电大学、北京大学、北京智源人工智能研究院
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
问题:现有方法为什么会「穿帮」?1. 端到端「一镜到底」2. 关键帧「分步走」核心创新:用「起始-结束帧对」重构叙事1. 长程叙事有「骨架」2. 镜头内部有「航向」3. 镜头衔接有「电影感」技术架构:STEP2 模型三大核心机制数据集:ConStoryBoard实验效果:全面超越现有方法视觉对比定量指标如何使用?Toolin 点评

相关文章

Happycapy:OpenClaw + Claude Code 一体化平台
AI产品

Happycapy:OpenClaw + Claude Code 一体化平台

Happycapy 整合 OpenClaw 与 Claude Code,内置 32 万+ Skills,支持 Claude Opus 4.6 等顶级模型,MAX 套餐无限畅用,提供独立云端沙盒环境

avatar for toolin小编
toolin小编
1周前
实操教程: 一句话生成 AI 漫剧 (开源项目)
AI教程

实操教程: 一句话生成 AI 漫剧 (开源项目)

手把手教你使用开源的 AI 漫剧平台,从剧本生成、角色固定到分镜绘制,一站式制作高质量漫画。

avatar for toolin小编
toolin小编
2026/01/26
EasySteer:比现有框架快22倍的LLM行为控制利器
AI产品

EasySteer:比现有框架快22倍的LLM行为控制利器

浙大开源EasySteer,基于vLLM的高性能LLM Steering框架,无需微调即可精准控制模型行为

avatar for toolin小编
toolin小编
2天前