JoyAI-Echo：开源5分钟长视频生成框架

AI 视频生成一直卡在"短视频"这道坎上。市面上的模型大多只能生成 20 秒以内的片段，一旦拉到分钟级，角色跨镜头变脸、声音漂移、改一个镜头就要全部重来，让 AI 长视频始终停留在 demo 阶段。

京东近期开源的 JoyAI-Echo 框架试图打破这个瓶颈。它能够一次生成长达 5 分钟的跨镜头音视频，保证角色面部和说话音色全程一致，支持通过自然语言进行局部修改，代码和权重均已公开。

JoyAI-Echo 是什么

JoyAI-Echo 是京东开源的长音视频生成框架。和市面上常见的短视频生成模型不同，它专注于解决"长时一致性"这个核心问题——让同一个角色在五分钟内、十几个镜头切换中始终保持同一张脸、同一把声音。

目前代码和权重文件均已在 GitHub 公开，可免费下载使用。

GitHub: https://github.com/jd-opensource/JoyAI-Echo
项目主页: https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

核心功能

跨镜头音视频双重一致

传统 AI 视频最大的痛点是"变脸"。JoyAI-Echo 通过"槽位配对"音视频记忆交互机制，将每个角色的面部特征和声音进行绑定。生成新镜头时，系统从记忆库中检索对应角色的视觉和音频标记，确保跨镜头一致性。

槽位配对视听记忆交互机制：每个历史事件包含对齐的视觉和音频记忆标记，配对的视觉与音频记忆槽位之间一一对应交互，防止跨事件的人脸与声音混淆。

非线性剪辑与局部重绘

过去修改一个镜头，需要重新生成整条视频。JoyAI-Echo 引入了 Director Agent（导演智能体），支持用自然语言指挥 AI 进行局部修改。不满意某个镜头？直接告诉它"把这段追逐场景的背景改成雨天"，系统会自动定位该镜头并重绘，其他镜头不受影响。

Director Agent 将长视频生成划分为规划、生成和评审三个阶段，支持利用局部反馈进行非线性修改。

高分辨率实时超分

通过联合单步超分架构（Unified One-Step SR），JoyAI-Echo 支持流式延迟约束下的两档实时超分，最高可直接输出 1472x2560 分辨率的高清视频。单个扩散流前向步骤即可将 720p 扩展至 2K 画质。

技术亮点

百万级身份向心型语料库

传统 AI 视频训练依赖优化单镜头质量的平铺式数据集，模型只学过短时间内画面怎么画，但没理解过同一角色在不同时空下的视觉连贯性。JoyAI-Echo 构建了全新的身份向心型视频语料库（Identity-Centric Video Corpus），从电影、电视剧和长视频中提取了超过 100 万个角色身份原型，确保生成内容的一致性。