AI长视频生成：两大开源框架对比评测

维度	VideoClaw	JoyAI-Echo
核心思路	多智能体协作流水线	跨模态记忆库
一致性方案	场记库 + VLM 质检闭环	音视频记忆库 + 后训练优化
交互方式	WebUI + 微信/飞书集成	对话式编辑 Agent
推理速度	未披露	DMD 加速 7.5 倍
开源状态	GitHub 开源	开源
团队	哈工大 + 阿里巴巴	京东
适合场景	短剧制作、影视二创、故事续写	高一致性音视频内容、数字人

实际应用案例

VideoClaw 案例

影视二创：为《给阿嬷的情书》重写结局——木生归乡，与淑柔相守一生
写实短剧：6 集短剧讲述程序员被裁后创业翻身的故事，支持额外续写
科幻漫剧：基于刘慈欣《乡村教师》生成 5 集漫剧

VideoClaw生成案例

怎么选

需要完整的视频创作流程控制（剧本、分镜、角色设定都可以人工介入）：选 VideoClaw
需要高一致性的音视频内容（角色不翻脸、声音不翻车）：选 JoyAI-Echo
两个都试试：两者开源，可以在自己的场景下对比测试

问题：为什么长视频这么难

长视频生成本质上不是一个"拉长时间"的问题，而是跨镜头、跨场景、跨动作的连续叙事问题：

角色漂移：多镜头切换后脸变了、衣服变了
音色飘移：不同片段说话人音色前后不一致
叙事断裂：场景衔接逻辑混乱
错误累积：模型在长时序生成中偏差越来越大

VideoClaw：多智能体协作的"数字剧组"

VideoClaw 来自哈工大张民教授团队与阿里巴巴的合作，核心思路是把长视频生成拆解为多智能体协作的流水线。

GitHub: https://github.com/HITsz-TMG/VideoClaw
Star 数: 1.3K+
关联项目: ComfyUI-Copilot (5.2K Star), Pixelle-Video (20.8K Star)

核心架构

用户只需输入一句灵感或故事梗概，系统调度由大模型驱动的"数字剧组"，依次完成：

剧本扩写
角色与场景设定
分镜规划
关键帧构图
视频分段生成
音频合成与后期拼接

VideoClaw框架图

与黑盒式视频生成不同，VideoClaw 在剧本、角色场景、分镜等阶段完成后会暂停展示阶段性产物，让创作者能在关键节点介入修改。

场记库：解决长程一致性的关键

VideoClaw 引入了类似"场记"的状态库，将角色关系、空间位置、场景分镜和版本信息沉淀为结构化资产。后续生成时从状态库中调取参考约束。

这意味着 VideoClaw 支持故事的无限续写——视频一段接一段延展，剧情冲突自然升级，人物互动基于已有情节继续推进。

VLM 闭环质检

安装方式

VideoClaw 支持 Linux / Mac / Windows 多平台快速安装，提供 WebUI 界面，也可集成至微信、飞书等通讯工具调用。

JoyAI-Echo：跨模态记忆驱动的长视频生成

JoyAI-Echo 来自京东，核心思路是给模型装一个"记忆库"，让它在生成长视频时不忘记角色长相和声音。

核心技术

跨模态音视频记忆库

记忆库不是无限扩展的——保留故事开头的关键镜头和最近生成的镜头，兼顾效率和一致性。

记忆库示意图

记忆驱动后训练：推理速度提升 7.5 倍

后训练流程分三步：

SFT（监督微调）：学习高质量音视频生成能力
RLHF（人类反馈强化学习）：优化人物一致性、画面质量、音画同步
DMD（Distribution Matching Distillation）：将大模型能力压缩到高效推理模型

仅 DMD 优化就带来约 7.5 倍的推理速度提升。

轻量化实时超分

在保证生成效率的同时输出高清画面，适合数字人、品牌营销等对画质有要求的场景。

评测数据

语音准确率：0.8646
用户偏好：59.4% ~ 81.7%
跨镜头一致性：全面领先行业

两者对比

维度	VideoClaw	JoyAI-Echo
核心思路	多智能体协作流水线	跨模态记忆库
一致性方案	场记库 + VLM 质检闭环	音视频记忆库 + 后训练优化
交互方式	WebUI + 微信/飞书集成	对话式编辑 Agent
推理速度	未披露	DMD 加速 7.5 倍
开源状态	GitHub 开源	开源
团队	哈工大 + 阿里巴巴	京东
适合场景	短剧制作、影视二创、故事续写	高一致性音视频内容、数字人

实际应用案例

VideoClaw 案例

影视二创：为《给阿嬷的情书》重写结局——木生归乡，与淑柔相守一生
写实短剧：6 集短剧讲述程序员被裁后创业翻身的故事，支持额外续写
科幻漫剧：基于刘慈欣《乡村教师》生成 5 集漫剧

VideoClaw生成案例

怎么选

需要完整的视频创作流程控制（剧本、分镜、角色设定都可以人工介入）：选 VideoClaw
需要高一致性的音视频内容（角色不翻脸、声音不翻车）：选 JoyAI-Echo
两个都试试：两者开源，可以在自己的场景下对比测试

全部

AI教程

AI产品

AI资源

AI长视频生成：两大开源框架对比评测

AI长视频生成：两大开源框架对比评测

作者

分类

相关文章

SceneMaker: 一张图生成高质量 3D 场景

Claude Managed Agents 六项更新：技能上限拉到 500，附实操载荷

DojoAgents：10 分钟在本地搭一个金融研究 Agent

AI长视频生成：两大开源框架对比评测

AI长视频生成：两大开源框架对比评测

作者

分类

相关文章

SceneMaker: 一张图生成高质量 3D 场景

Claude Managed Agents 六项更新：技能上限拉到 500，附实操载荷

DojoAgents：10 分钟在本地搭一个金融研究 Agent