toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,273个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

RhymeFlow:开源视频生成提速1.8倍

2026/06/12
·toolin小编

清华大学开源视频生成加速框架RhymeFlow,无需重训练即可让Wan 2.1、CogVideoX等DiT模型推理提速1.5x-1.8x,质量几乎无损,62.5%用户无法区分差异。

RhymeFlow:开源视频生成提速1.8倍
RhymeFlow:开源视频生成提速1.8倍
2026/06/12

RhymeFlow:开源视频生成提速1.8倍

清华大学开源视频生成加速框架RhymeFlow,无需重训练即可让Wan 2.1、CogVideoX等DiT模型推理提速1.5x-1.8x,质量几乎无损,62.5%用户无法区分差异。

解决什么问题三个核心模块1. 内容感知的关键帧选择2. 渐进式异步去噪调度3. 潜变量轨迹投影实验结果适用场景获取方式
AI产品

清华大学与 GigaAI 联合开源了 RhymeFlow——一个完全训练免费的视频生成加速框架。它不需要重新训练模型,直接在推理阶段应用"帧间异步调度",让 Wan 2.1、CogVideoX 等 DiT 视频模型的推理速度提升 1.5 倍到 1.8 倍。

在 82 人的双盲用户研究中,62.5% 的用户无法将 RhymeFlow 的输出与原始模型区分开来。

解决什么问题

当前主流 DiT 视频模型(Wan 2.1、CogVideoX、Sora)有一个共同的痛点:生成一段 81 帧 720p 视频,单张 A800 GPU 要跑将近 17 分钟。

现有的加速方法(稀疏注意力、KV 缓存、量化)优化的是单步内的计算量。但没人动过一个更根本的问题——所有帧被一视同仁,哪怕相邻帧内容几乎完全相同,也要走完完整的 50 步去噪流程。

RhymeFlow 的核心洞察是:视频的语义和运动是连续的,关键帧决定全局结构,非关键帧的轨迹高度可预测。既然如此,为什么不让不同帧各走各的路?

Image

三个核心模块

1. 内容感知的关键帧选择

不是简单均匀采样,而是通过潜空间语义相似度,自动识别包含场景切换、物体运动突变的关键帧。这些帧获得完整的计算资源,确保视频的结构完整性和语义准确性。

2. 渐进式异步去噪调度

关键帧每步都更新,非关键帧按噪声阶段差异化跳步推进:

  • 热身阶段(前 15 步):所有帧同步去噪,打好全局构图基础
  • 高噪声阶段(结构敏感):非关键帧每 2 步更新一次
  • 低噪声阶段(细节优化):非关键帧每 3 步更新一次
  • 节奏点同步:定期让所有帧汇合,校准非关键帧轨迹,防止误差累积

3. 潜变量轨迹投影

非关键帧跳步后,中间状态缺失会破坏 3D 注意力的时间一致性。RhymeFlow 用一个计算量可忽略的线性投影模块,基于前后两个已知状态精准预测中间时刻的潜变量——相当于给非关键帧画了一条平滑的运动轨迹。

Image

实验结果

在主流开源模型上的测试结果:

与 SOTA 方法对比:

  • Wan 2.1 上:RhymeFlow 的 PSNR 比 SAP 高 1.84,SSIM 高 0.053,速度相当
  • CogVideoX 上:以 1.78 倍加速比,保持 98.6% 的主体一致性
  • 与 SAP 叠加后:加速比进一步提升至 1.93 倍,且质量优于单独使用 SAP

Image

82 人双盲用户研究:

  • 53.7% 的用户认为 RhymeFlow 的时间连贯性优于 SVG
  • 74.4% 的用户更偏好 RhymeFlow 而非 SAP
  • 与原始模型对比,62.5% 的用户无法区分差异,统计上无显著区别

适用场景

RhymeFlow 适合以下场景:

  • 使用 Wan 2.1、CogVideoX 等开源 DiT 视频模型进行批量视频生成
  • 需要降低视频生成推理成本(GPU 时间缩短约一半)
  • 对视频质量有要求但可以接受极微小的质量损失

获取方式

  • 论文: arxiv.org/abs/2604.08370
  • GitHub: github.com/Simon-Dcs/RhymeFlow
  • 项目主页: simon-dcs.github.io/Website-of-RhymeFlow

框架完全开源,无需重新训练模型,可直接集成到现有的 DiT 推理管线中。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
解决什么问题三个核心模块1. 内容感知的关键帧选择2. 渐进式异步去噪调度3. 潜变量轨迹投影实验结果适用场景获取方式

相关文章

Tabbit AI浏览器:Agent时代的浏览器长什么样
AI产品

Tabbit AI浏览器:Agent时代的浏览器长什么样

美团旗下GN06团队发布AI浏览器Tabbit 1.0,基础功能永久免费,专业版9.9元/周,支持多模型同时运行、脚本妙招和Agent任务管理。

avatar for toolin小编
toolin小编
1天前
写好Claude Skill的7条实战经验
AI教程

写好Claude Skill的7条实战经验

来自Anthropic官方的Skill编写经验总结:精简上下文、积累踩坑清单、脚本化稳定环节,让你的AI协作效率翻倍。

avatar for toolin小编
toolin小编
1天前
Claude Fable 5 与 Mythos 5 发布
AI产品

Claude Fable 5 与 Mythos 5 发布

Anthropic发布Mythos级旗舰模型,Fable 5面向所有用户开放,软件工程基准SWE-bench Pro拿下80.3%,定价输入10美元/百万token。

avatar for toolin小编
toolin小编
2天前