toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,146个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

Hallo-Live:实时文本驱动音视频数字人

2026/05/25
·toolin小编

开源实时数字人生成方案,文本输入即可同步生成说话视频与语音,20.38 FPS吞吐、0.94秒端到端延迟

Hallo-Live:实时文本驱动音视频数字人
Hallo-Live:实时文本驱动音视频数字人
2026/05/25

Hallo-Live:实时文本驱动音视频数字人

开源实时数字人生成方案,文本输入即可同步生成说话视频与语音,20.38 FPS吞吐、0.94秒端到端延迟

Hallo-Live 是什么核心技术异步双流扩散(Asynchronous Dual-Stream Diffusion)Causal Fusion BlockFuture-Expanding Attention人类偏好引导蒸馏应用场景技术要求
AI产品

文本驱动音视频数字人正在从"能生成"走向"能实时交互"。来自上海创智学院、复旦大学等机构的 Hallo-Live 项目,在两张 NVIDIA H200 GPU 上实现了 20.38 FPS 的吞吐和 0.94 秒的端到端延迟,同时保持接近教师模型的视觉质量和音画同步效果。

论文地址:arxiv.org/abs/2604.23632 代码地址:github.com/fudan-generative-vision/Hallo-Live

Hallo-Live 是什么

传统的音频驱动数字人只需要对口型,但文本驱动方案要同时完成两件事:先"理解"文本里的人物、场景、语气,再同步生成对应的说话视频与语音。嘴型、发音、表情甚至上半身动作都要卡在同一个时间轴上。

相比教师模型 Ovi,Hallo-Live 的关键指标:

指标Hallo-Live提升
吞吐量20.38 FPS提升 16.0 倍
端到端延迟0.94 秒下降 99.3%

支持动漫风格、写实人物和多人场景,已在 GitHub 开源。

核心技术

异步双流扩散(Asynchronous Dual-Stream Diffusion)

Hallo-Live 的训练分两个阶段:

  • Stage 1 -- Dual-Stream ODE Init:模型同时输入不同 noise level 的音视频 blocks,基于单模态和跨模态的 Block-Causal Mask 训练双流 DiT
  • Stage 2 -- Self-Rollout + Dual-Stream DMD:学生模型基于音视频 KV Cache 自回归生成完整音视频,再引入音视频同步相关的 reward 蒸馏为 few-step 模型

整体架构

Causal Fusion Block

这是双流 DiT 的核心单元。视频流和音频流先分别做单模态 Block-Causal Self-Attention,再注入文本条件,随后通过跨模态 Block-Causal Cross-Attention 交换信息,在流式生成下完成音视频融合。

Causal Fusion Block架构

Future-Expanding Attention

真实说话中,嘴唇动作往往先于声音到来(协同发音现象)。严格因果的块级注意力看不到"短时未来"语音信息,导致嘴型不自然。

Hallo-Live 把视频到音频的跨模态注意力做成"非对称"的:视频聚焦当前块,但音频键值范围额外向前扩一小段 look-ahead 窗口,相当于给视频流一个短时的"预读区"。

Future-Expanding Attention机制

这个未来音频块不是最终输出,而是临时过渡块,不会损失音频质量。

人类偏好引导蒸馏

少步蒸馏能提速,但容易带来"均值化"退化 -- 视频纹理变糊、语音更机械、音画对齐漂移。Hallo-Live 引入音频、视频和音视频同步相关的 reward,对双流 DMD 损失进行加权,在加速的同时保持生成质量。

应用场景

  • 虚拟主播 / 数字人直播:实时文本驱动,适合直播互动场景
  • 客服数字人:用文本输入实时生成语音和视频回复
  • 内容创作:批量生成带语音的数字人视频
  • 教育/培训:生成数字人讲师进行课程讲解

技术要求

  • 硬件:两张 NVIDIA H200 GPU(论文实验环境)
  • 输入:文本 + 参考人物图像
  • 输出:同步的说话视频 + 语音
  • 延迟:0.94 秒端到端

项目已在 GitHub 开源,适合做数字人交互、实时流式生成的研究者和开发者使用。

参考链接:

  • 论文
  • 代码仓库
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
Hallo-Live 是什么核心技术异步双流扩散(Asynchronous Dual-Stream Diffusion)Causal Fusion BlockFuture-Expanding Attention人类偏好引导蒸馏应用场景技术要求

相关文章

CODA:让LLM和新手写出光速GPU内核
AI产品

CODA:让LLM和新手写出光速GPU内核

来自MIT和普林斯顿的开源项目,把Transformer训练中的散碎计算重写为GEMM-Epilogue模式,反向传播加速1.6-1.8倍

avatar for toolin小编
toolin小编
7小时前
GLM-5.1 高速版实测:400 TPS 不掉智商
AI产品

GLM-5.1 高速版实测:400 TPS 不掉智商

智谱 GLM-5.1 高速版 API 内测实测 TPS 达 350-400 tokens/s,采用 TileRT 推理引擎,在 Claude Code 中配合使用体验极佳,目前仅面向企业客户开放。

avatar for toolin小编
toolin小编
2天前
AI Desk Card:一块墨水屏,让 AI 接管你屏幕边的便签纸
AI教程

AI Desk Card:一块墨水屏,让 AI 接管你屏幕边的便签纸

开源 Skill 把 4.7 寸墨水屏变成 AI 驱动的桌面信息中心,自动同步日历、GitHub PR、天气,AI 决定显示什么

avatar for toolin小编
toolin小编
3天前