RhymeFlow：开源视频生成提速1.8倍

清华大学与 GigaAI 联合开源了 RhymeFlow——一个完全训练免费的视频生成加速框架。它不需要重新训练模型，直接在推理阶段应用"帧间异步调度"，让 Wan 2.1、CogVideoX 等 DiT 视频模型的推理速度提升 1.5 倍到 1.8 倍。

在 82 人的双盲用户研究中，62.5% 的用户无法将 RhymeFlow 的输出与原始模型区分开来。

解决什么问题

当前主流 DiT 视频模型（Wan 2.1、CogVideoX、Sora）有一个共同的痛点：生成一段 81 帧 720p 视频，单张 A800 GPU 要跑将近 17 分钟。

现有的加速方法（稀疏注意力、KV 缓存、量化）优化的是单步内的计算量。但没人动过一个更根本的问题——所有帧被一视同仁，哪怕相邻帧内容几乎完全相同，也要走完完整的 50 步去噪流程。

RhymeFlow 的核心洞察是：视频的语义和运动是连续的，关键帧决定全局结构，非关键帧的轨迹高度可预测。既然如此，为什么不让不同帧各走各的路？

三个核心模块

1. 内容感知的关键帧选择

不是简单均匀采样，而是通过潜空间语义相似度，自动识别包含场景切换、物体运动突变的关键帧。这些帧获得完整的计算资源，确保视频的结构完整性和语义准确性。

2. 渐进式异步去噪调度

关键帧每步都更新，非关键帧按噪声阶段差异化跳步推进：

热身阶段（前 15 步）：所有帧同步去噪，打好全局构图基础
高噪声阶段（结构敏感）：非关键帧每 2 步更新一次
低噪声阶段（细节优化）：非关键帧每 3 步更新一次
节奏点同步：定期让所有帧汇合，校准非关键帧轨迹，防止误差累积

3. 潜变量轨迹投影

非关键帧跳步后，中间状态缺失会破坏 3D 注意力的时间一致性。RhymeFlow 用一个计算量可忽略的线性投影模块，基于前后两个已知状态精准预测中间时刻的潜变量——相当于给非关键帧画了一条平滑的运动轨迹。

实验结果

在主流开源模型上的测试结果：

与 SOTA 方法对比：

Wan 2.1 上：RhymeFlow 的 PSNR 比 SAP 高 1.84，SSIM 高 0.053，速度相当
CogVideoX 上：以 1.78 倍加速比，保持 98.6% 的主体一致性
与 SAP 叠加后：加速比进一步提升至 1.93 倍，且质量优于单独使用 SAP

82 人双盲用户研究：

53.7% 的用户认为 RhymeFlow 的时间连贯性优于 SVG
74.4% 的用户更偏好 RhymeFlow 而非 SAP
与原始模型对比，62.5% 的用户无法区分差异，统计上无显著区别

适用场景

RhymeFlow 适合以下场景：

使用 Wan 2.1、CogVideoX 等开源 DiT 视频模型进行批量视频生成
需要降低视频生成推理成本（GPU 时间缩短约一半）
对视频质量有要求但可以接受极微小的质量损失

获取方式

论文： arxiv.org/abs/2604.08370
GitHub： github.com/Simon-Dcs/RhymeFlow
项目主页： simon-dcs.github.io/Website-of-RhymeFlow

框架完全开源，无需重新训练模型，可直接集成到现有的 DiT 推理管线中。

在 82 人的双盲用户研究中，62.5% 的用户无法将 RhymeFlow 的输出与原始模型区分开来。

热身阶段（前 15 步）：所有帧同步去噪，打好全局构图基础
高噪声阶段（结构敏感）：非关键帧每 2 步更新一次
低噪声阶段（细节优化）：非关键帧每 3 步更新一次
节奏点同步：定期让所有帧汇合，校准非关键帧轨迹，防止误差累积

3. 潜变量轨迹投影

实验结果

在主流开源模型上的测试结果：

与 SOTA 方法对比：

Wan 2.1 上：RhymeFlow 的 PSNR 比 SAP 高 1.84，SSIM 高 0.053，速度相当
CogVideoX 上：以 1.78 倍加速比，保持 98.6% 的主体一致性
与 SAP 叠加后：加速比进一步提升至 1.93 倍，且质量优于单独使用 SAP

82 人双盲用户研究：

53.7% 的用户认为 RhymeFlow 的时间连贯性优于 SVG
74.4% 的用户更偏好 RhymeFlow 而非 SAP
与原始模型对比，62.5% 的用户无法区分差异，统计上无显著区别

适用场景

RhymeFlow 适合以下场景：

使用 Wan 2.1、CogVideoX 等开源 DiT 视频模型进行批量视频生成
需要降低视频生成推理成本（GPU 时间缩短约一半）
对视频质量有要求但可以接受极微小的质量损失

获取方式

论文： arxiv.org/abs/2604.08370
GitHub： github.com/Simon-Dcs/RhymeFlow
项目主页： simon-dcs.github.io/Website-of-RhymeFlow

框架完全开源，无需重新训练模型，可直接集成到现有的 DiT 推理管线中。

全部

AI教程

AI产品

AI资源

RhymeFlow：开源视频生成提速1.8倍

RhymeFlow：开源视频生成提速1.8倍

解决什么问题

三个核心模块

1. 内容感知的关键帧选择

2. 渐进式异步去噪调度

3. 潜变量轨迹投影

实验结果

适用场景

获取方式

作者

分类

相关文章

百度搭子 DuMate 实操教程：从安装到自动化的国产办公 Agent

Claude Tag：让AI真正成为你的团队同事

豆包专业版实测：2亿人都能用的Agent办公模式

RhymeFlow：开源视频生成提速1.8倍

RhymeFlow：开源视频生成提速1.8倍

解决什么问题

三个核心模块

1. 内容感知的关键帧选择

2. 渐进式异步去噪调度

3. 潜变量轨迹投影

实验结果

适用场景

获取方式

作者

分类

相关文章

百度搭子 DuMate 实操教程：从安装到自动化的国产办公 Agent

Claude Tag：让AI真正成为你的团队同事

豆包专业版实测：2亿人都能用的Agent办公模式