京东首次开源长音视频生成框架JoyAI-Echo,直击角色一致性、声音稳定性和生成速度三大难题,多项指标领先。


京东首次开源长音视频生成框架JoyAI-Echo,直击角色一致性、声音稳定性和生成速度三大难题,多项指标领先。
AI长视频生成一直有个"不可能三角":长时长、高一致性、快速度,三者似乎无法兼得。同一个角色上一个镜头和下一个镜头长得不一样,说话人音色忽高忽低,渲染还要等半天。京东最新开源的 JoyAI-Echo 就是来逐一击破这些痛点的。

JoyAI-Echo 是京东首次开源的长音视频生成框架,支持分钟级叙事视频生成,角色外貌、音色在多镜头间保持一致。代码和模型权重全部开放,开发者可以基于此进行二次开发和微调。
传统模型在逐镜生成时缺乏对历史内容的记忆,每次都像"失忆"一样重新开始。JoyAI-Echo 内置了一个专门的记忆库,持续保存并精准调用角色的视觉特征和听觉特征。在5分钟的多镜头生成中,这个记忆库就像导演手中的"角色档案",每次调用都保证输出一致性。

JoyAI-Echo 设计了三段式后训练流水线:SFT -> 跨模态 RLHF -> 分布匹配蒸馏(DMD)。DMD 技术将多步扩散师生蒸馏压缩为 8 步快速推理,带来约 7.5 倍的推理速度提升,让长视频从"等半天"变成"秒出片"。
你可以用自然语言告诉它你的需求,比如"把第三场戏的咖啡馆背景换成图书馆"。它会自动拆解需求、生成视频、检查结果。不满意的地方只重新生成局部镜头,整条视频不用重来。
配套的实时超分模块在几乎不增加延迟的情况下,将原生 720p 视频提升至最高 1472x2560 分辨率。
在 100 个独立故事剧本、总计 3000 个分镜的严苛评测中:
| 指标 | 表现 |
|---|---|
| 语音准确率 | 0.8646(行业领先) |
| 音频质量偏好 | 81.7% |
| 提示词遵循偏好 | 80.6% |
| IP角色一致性偏好 | 59.4% |
代码和模型权重全部开源,前往 GitHub 仓库 jd-opensource/JoyAI-Echo 即可获取。

CNCF展示的AI辅助迁移方案,30分钟内将60个ingress-nginx资源自动转换为Higress配置,大幅降低K8s网关迁移成本。

Cloudflare新增对Claude Managed Agents的支持,开发者可以在Cloudflare平台上运行Claude代理,连接私有系统,实现安全的AI代理部署。

手把手教你用AhaCreator完成从达人筛选、内容审核到跨境打款的完整海外达人营销流程,适合独立开发者和出海团队。