提交AI工具提交

JoyAI-Echo: 京东开源5分钟长视频生成框架

2026/06/05

·toolin小编

京东首次开源长音视频生成框架JoyAI-Echo，直击角色一致性、声音稳定性和生成速度三大难题，多项指标领先。

JoyAI-Echo: 京东开源5分钟长视频生成框架

JoyAI-Echo: 京东开源5分钟长视频生成框架

2026/06/05

JoyAI-Echo: 京东开源5分钟长视频生成框架

京东首次开源长音视频生成框架JoyAI-Echo，直击角色一致性、声音稳定性和生成速度三大难题，多项指标领先。

JoyAI-Echo 是什么核心技术突破 1. 跨模态音视频记忆库：解决"变脸"问题 2. 记忆驱动后训练：速度提升 7.5 倍 3. Director Agent 导演智能体：对话式编辑 4. 轻量化实时超分：720p 到高清评测数据应用场景获取方式

AI长视频生成一直有个"不可能三角"：长时长、高一致性、快速度，三者似乎无法兼得。同一个角色上一个镜头和下一个镜头长得不一样，说话人音色忽高忽低，渲染还要等半天。京东最新开源的 JoyAI-Echo 就是来逐一击破这些痛点的。

JoyAI-Echo 在 Hugging Face 的页面截图

JoyAI-Echo 是什么

JoyAI-Echo 是京东首次开源的长音视频生成框架，支持分钟级叙事视频生成，角色外貌、音色在多镜头间保持一致。代码和模型权重全部开放，开发者可以基于此进行二次开发和微调。

核心技术突破

1. 跨模态音视频记忆库：解决"变脸"问题

传统模型在逐镜生成时缺乏对历史内容的记忆，每次都像"失忆"一样重新开始。JoyAI-Echo 内置了一个专门的记忆库，持续保存并精准调用角色的视觉特征和听觉特征。在5分钟的多镜头生成中，这个记忆库就像导演手中的"角色档案"，每次调用都保证输出一致性。

跨模态音视频记忆库机制

2. 记忆驱动后训练：速度提升 7.5 倍

JoyAI-Echo 设计了三段式后训练流水线：SFT -> 跨模态 RLHF -> 分布匹配蒸馏（DMD）。DMD 技术将多步扩散师生蒸馏压缩为 8 步快速推理，带来约 7.5 倍的推理速度提升，让长视频从"等半天"变成"秒出片"。

3. Director Agent 导演智能体：对话式编辑

你可以用自然语言告诉它你的需求，比如"把第三场戏的咖啡馆背景换成图书馆"。它会自动拆解需求、生成视频、检查结果。不满意的地方只重新生成局部镜头，整条视频不用重来。

4. 轻量化实时超分：720p 到高清

配套的实时超分模块在几乎不增加延迟的情况下，将原生 720p 视频提升至最高 1472x2560 分辨率。

评测数据

在 100 个独立故事剧本、总计 3000 个分镜的严苛评测中：

指标	表现
语音准确率	0.8646（行业领先）
音频质量偏好	81.7%
提示词遵循偏好	80.6%
IP角色一致性偏好	59.4%

应用场景

虚拟动漫与故事创作：用自然语言指挥AI生成连贯的动漫剧集
数字人直播与短剧：长时间保持音色、口型、表情一致
品牌营销内容：修改台词或局部镜头即可生成多版本视频
影视分镜预演：快速生成预览视频，验证镜头语言
教育课件与游戏动画：动态生成连贯剧情动画

获取方式

代码和模型权重全部开源，前往 GitHub 仓库 jd-opensource/JoyAI-Echo 即可获取。

作者

toolin小编

分类

AI产品

JoyAI-Echo 是什么核心技术突破 1. 跨模态音视频记忆库：解决"变脸"问题 2. 记忆驱动后训练：速度提升 7.5 倍 3. Director Agent 导演智能体：对话式编辑 4. 轻量化实时超分：720p 到高清评测数据应用场景获取方式

相关文章

全球首个应用开发 Skill：让 AI Agent 一句话生成可上线的商用应用

全球首个应用开发 Skill：让 AI Agent 一句话生成可上线的商用应用

百度秒哒 Miaoda App Builder 上架 ClawHub，支持一键生成带支付功能的网页、小程序，自动修复 Bug，真正实现从对话到产品的闭环

阿里「悟空」发布：全球首个企业级AI原生工作平台，钉钉8亿用户的AI迁徙

阿里「悟空」发布：全球首个企业级AI原生工作平台，钉钉8亿用户的AI迁徙

阿里ATH事业群发布悟空WuKong，全球首个企业智能体AI原生工作平台，支持CLI化操作、RealDoc文件系统、十大行业OPT技能套件，解决OpenClaw企业落地难题

6个开源OpenClaw技能实战：GLM-5-Turbo龙虾模型深度测评

6个开源OpenClaw技能实战：GLM-5-Turbo龙虾模型深度测评

智谱GLM-5-Turbo龙虾专用模型实测，6个开源Skill全解析：听歌、海报生成、信息图制作、飞书自动化等，工具调用稳定，成本远低于Claude Opus