toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,219个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

JoyAI-Echo:开源5分钟长视频生成框架

2026/06/06
·toolin小编

京东开源的AI长视频生成框架,一次生成长达5分钟的跨镜头音视频,支持局部修改,告别盲盒式抽卡。

JoyAI-Echo:开源5分钟长视频生成框架
JoyAI-Echo:开源5分钟长视频生成框架
2026/06/06

JoyAI-Echo:开源5分钟长视频生成框架

京东开源的AI长视频生成框架,一次生成长达5分钟的跨镜头音视频,支持局部修改,告别盲盒式抽卡。

JoyAI-Echo 是什么核心功能跨镜头音视频双重一致非线性剪辑与局部重绘高分辨率实时超分技术亮点百万级身份向心型语料库渐进演化记忆库后训练体系实际效果适用场景
AI产品

AI 视频生成一直卡在"短视频"这道坎上。市面上的模型大多只能生成 20 秒以内的片段,一旦拉到分钟级,角色跨镜头变脸、声音漂移、改一个镜头就要全部重来,让 AI 长视频始终停留在 demo 阶段。

京东近期开源的 JoyAI-Echo 框架试图打破这个瓶颈。它能够一次生成长达 5 分钟的跨镜头音视频,保证角色面部和说话音色全程一致,支持通过自然语言进行局部修改,代码和权重均已公开。

JoyAI-Echo 是什么

JoyAI-Echo 是京东开源的长音视频生成框架。和市面上常见的短视频生成模型不同,它专注于解决"长时一致性"这个核心问题——让同一个角色在五分钟内、十几个镜头切换中始终保持同一张脸、同一把声音。

目前代码和权重文件均已在 GitHub 公开,可免费下载使用。

  • GitHub: https://github.com/jd-opensource/JoyAI-Echo
  • 项目主页: https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

核心功能

跨镜头音视频双重一致

传统 AI 视频最大的痛点是"变脸"。JoyAI-Echo 通过"槽位配对"音视频记忆交互机制,将每个角色的面部特征和声音进行绑定。生成新镜头时,系统从记忆库中检索对应角色的视觉和音频标记,确保跨镜头一致性。

Image

槽位配对视听记忆交互机制:每个历史事件包含对齐的视觉和音频记忆标记,配对的视觉与音频记忆槽位之间一一对应交互,防止跨事件的人脸与声音混淆。

非线性剪辑与局部重绘

过去修改一个镜头,需要重新生成整条视频。JoyAI-Echo 引入了 Director Agent(导演智能体),支持用自然语言指挥 AI 进行局部修改。不满意某个镜头?直接告诉它"把这段追逐场景的背景改成雨天",系统会自动定位该镜头并重绘,其他镜头不受影响。

Director Agent 将长视频生成划分为规划、生成和评审三个阶段,支持利用局部反馈进行非线性修改。

高分辨率实时超分

通过联合单步超分架构(Unified One-Step SR),JoyAI-Echo 支持流式延迟约束下的两档实时超分,最高可直接输出 1472x2560 分辨率的高清视频。单个扩散流前向步骤即可将 720p 扩展至 2K 画质。

技术亮点

百万级身份向心型语料库

传统 AI 视频训练依赖优化单镜头质量的平铺式数据集,模型只学过短时间内画面怎么画,但没理解过同一角色在不同时空下的视觉连贯性。JoyAI-Echo 构建了全新的身份向心型视频语料库(Identity-Centric Video Corpus),从电影、电视剧和长视频中提取了超过 100 万个角色身份原型,确保生成内容的一致性。

渐进演化记忆库

放弃端到端生成,采用基于渐进演化记忆库(Evolving Memory Bank)的迭代分镜合成机制。在生成阶段,目标视频和音频标记由两个扩散分支处理,记忆标记仅作为条件上下文使用,不参与损失计算。

后训练体系

  • 口型同步:长上下文损失重定向与梯度放大,二阶段放大至 6 倍,强化台词对嘴型的控制力
  • 画质提升:480p 到 720p 渐进式分辨率调度,兼顾单镜头质感与多镜头一致性
  • RLHF 对齐:OmniNFT 框架解决"音画奖励不一致"等瓶颈
  • 推理加速:DMD 蒸馏将多步生成压缩为 8 步,并加入记忆输入降级模拟增强鲁棒性

实际效果

在包含 100 个剧本故事、3000 个顺序镜头的超长生成基准评测集上,JoyAI-Echo 的台词准确率达到 0.8646,视听一致性各项指标均位列前茅。

适用场景

  • 影视前期预演:快速生成分镜视频,验证叙事节奏和视觉风格
  • 数字人内容创作:长时间保持角色一致的对话视频
  • 故事型短视频:一次生成完整的多镜头叙事内容
  • 学术研究:开源代码和权重方便二次开发和算法改进

提示: 该项目需要一定的 GPU 算力支撑。如需生成 2K 分辨率视频,建议使用显存 24GB 以上的显卡。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
JoyAI-Echo 是什么核心功能跨镜头音视频双重一致非线性剪辑与局部重绘高分辨率实时超分技术亮点百万级身份向心型语料库渐进演化记忆库后训练体系实际效果适用场景

相关文章

Claude Code vs Codex:24项功能对比全景
AI产品

Claude Code vs Codex:24项功能对比全景

两家AI编程智能体的24项共有功能时间线梳理,Claude Code先发18项但差距正在以天为单位缩小。

avatar for toolin小编
toolin小编
1天前
Gemma 4 12B:16G笔记本跑多模态AI模型
AI产品

Gemma 4 12B:16G笔记本跑多模态AI模型

谷歌发布120亿参数开源多模态模型,支持文本、图像、音频输入,仅需9GB显存即可在笔记本本地运行,Apache 2.0协议。

avatar for toolin小编
toolin小编
2天前
Kimi Work:面向知识工作者的本地AI Agent
AI产品

Kimi Work:面向知识工作者的本地AI Agent

月之暗面推出桌面端通用Agent,支持Agent集群、浏览器控制和金融数据源,让白领也能用AI完成日常工作。

avatar for toolin小编
toolin小编
2天前