UniRL：腾讯混元开源多模态RL训练框架

UniRL 是腾讯混元团队（庞天宇团队）开源的多模态生成模型强化学习后训练框架。它解决了一个长期痛点：图像扩散模型一套训练流程、视频生成另一套标准、VLM 和 LLM 又有不同的技术栈。UniRL 把这些全部统一到一套框架里。

解决什么问题

多模态生成模型的 RL 训练面临四大挑战：

生成过程不同：LLM 处理离散 token 序列，图像/视频生成对应连续潜空间中的去噪轨迹。统一模型的一次 rollout 还会混合 token 生成与 latent 去噪。
系统闭环难稳定：rollout、log-prob replay 与策略更新跨多个模型和后端，训练侧必须严格复现采样侧的条件、噪声、时间步，否则产生 Training-Inference Mismatch。
奖励系统更重：多模态 reward 往往依赖 VLM、OCR、美学模型、视频理解模型，不是简单的文本规则。
显存压力大：中间产物是高维 latent、噪声、时间步和条件状态，视频生成中随分辨率和帧数快速放大。

这导致行业现状是"一个模型一套训练代码"，开发者大量时间浪费在重复的工程实现上。

UniRL 框架架构

UniRL 统一多模态 RL 闭环：rollout -> reward -> advantage -> train -> weight-sync。

支持的模型

UniRL 提供了业界最广泛的多模态生成模型支持：

领域	支持模型
图像生成	SD3/3.5、Qwen-Image、Z-Image、FLUX.2-Klein
视频生成	HunyuanVideo 1.0&1.5、WAN 系列
大语言模型	Qwen3 系列
多模态理解	Qwen-VL 系列
原生统一模型	HunyuanImage 3.0、Bagel
组合式模型	LLM/VLM + Diffusion 的 Prompt-Enhancer

内置算法与奖励系统

算法侧

Policy-gradient 家族：FlowGRPO、DanceGRPO、MixGRPO、LLM/VLM GRPO
Forward-process 家族：DiffusionNFT（无需完整 SDE rollout 的高效训练）
腾讯混元自研：
- Flow-DPPO：用逐步 KL 散度近端约束替代 PPO ratio clipping，实现更稳定的 flow/diffusion 模型 RL 训练
- DRPO：用 advantage 加权的平滑策略偏移正则项替代硬裁剪/掩码，在越过信任域边界时仍提供连续梯度修正

奖励侧

UniRL 集成了多类常用 reward 组件：

规则/相似度：CLIPScore、GOT-OCR-2.0
偏好/美学：PickScore、HPSv2/HPSv3、ImageReward
VLM-as-judge：UnifiedReward、GenEval2、WISE
视频评估：VideoPickScore、VideoAlign

核心设计

UniRL 以 Ray worker group、Hydra flat recipe、可组合训练后端和可插拔 rollout engine 为核心骨架。它用轨迹（track）表示承载不同阶段的生成轨迹：AR 阶段是 TextSegment，图像生成阶段是 LatentSegment，不同 track 之间通过 parent-child 关系连接。

这使得 Bagel、HunyuanImage 3.0 这类统一多模态模型（先 AR 文本思考、再 DiT 图像生成）的链式流程可以被自然表示。

如何使用

GitHub 代码库: https://github.com/Tencent-Hunyuan/UniRL
官方文档: https://unirl-project.github.io/unirl/
Flow-DPPO 论文: https://arxiv.org/pdf/2606.11025
DRPO 论文: https://arxiv.org/pdf/2606.09821

框架提供了完善的 examples，方便快速启动实验和复现算法。目前仍处于活跃迭代阶段，后续将继续扩展 rollout engine 支持、优化大规模训练性能。

解决什么问题

多模态生成模型的 RL 训练面临四大挑战：

生成过程不同：LLM 处理离散 token 序列，图像/视频生成对应连续潜空间中的去噪轨迹。统一模型的一次 rollout 还会混合 token 生成与 latent 去噪。
系统闭环难稳定：rollout、log-prob replay 与策略更新跨多个模型和后端，训练侧必须严格复现采样侧的条件、噪声、时间步，否则产生 Training-Inference Mismatch。
奖励系统更重：多模态 reward 往往依赖 VLM、OCR、美学模型、视频理解模型，不是简单的文本规则。
显存压力大：中间产物是高维 latent、噪声、时间步和条件状态，视频生成中随分辨率和帧数快速放大。

这导致行业现状是"一个模型一套训练代码"，开发者大量时间浪费在重复的工程实现上。

UniRL 框架架构

UniRL 统一多模态 RL 闭环：rollout -> reward -> advantage -> train -> weight-sync。

支持的模型

UniRL 提供了业界最广泛的多模态生成模型支持：

领域	支持模型
图像生成	SD3/3.5、Qwen-Image、Z-Image、FLUX.2-Klein
视频生成	HunyuanVideo 1.0&1.5、WAN 系列
大语言模型	Qwen3 系列
多模态理解	Qwen-VL 系列
原生统一模型	HunyuanImage 3.0、Bagel
组合式模型	LLM/VLM + Diffusion 的 Prompt-Enhancer

内置算法与奖励系统

算法侧

Policy-gradient 家族：FlowGRPO、DanceGRPO、MixGRPO、LLM/VLM GRPO
Forward-process 家族：DiffusionNFT（无需完整 SDE rollout 的高效训练）
腾讯混元自研：
- Flow-DPPO：用逐步 KL 散度近端约束替代 PPO ratio clipping，实现更稳定的 flow/diffusion 模型 RL 训练
- DRPO：用 advantage 加权的平滑策略偏移正则项替代硬裁剪/掩码，在越过信任域边界时仍提供连续梯度修正

奖励侧

UniRL 集成了多类常用 reward 组件：

规则/相似度：CLIPScore、GOT-OCR-2.0
偏好/美学：PickScore、HPSv2/HPSv3、ImageReward
VLM-as-judge：UnifiedReward、GenEval2、WISE
视频评估：VideoPickScore、VideoAlign

核心设计

这使得 Bagel、HunyuanImage 3.0 这类统一多模态模型（先 AR 文本思考、再 DiT 图像生成）的链式流程可以被自然表示。

如何使用

GitHub 代码库: https://github.com/Tencent-Hunyuan/UniRL
官方文档: https://unirl-project.github.io/unirl/
Flow-DPPO 论文: https://arxiv.org/pdf/2606.11025
DRPO 论文: https://arxiv.org/pdf/2606.09821

框架提供了完善的 examples，方便快速启动实验和复现算法。目前仍处于活跃迭代阶段，后续将继续扩展 rollout engine 支持、优化大规模训练性能。

全部

AI教程

AI产品

AI资源

UniRL：腾讯混元开源多模态RL训练框架

UniRL：腾讯混元开源多模态RL训练框架

解决什么问题

支持的模型

内置算法与奖励系统

算法侧

奖励侧

核心设计

如何使用

作者

分类

相关文章

TerminalWorld：首个真实 CLI 工作流 Agent 基准

若愚揽月01：全球首个AI防爆机器人，自己给真车加油

TRIAD：让AI智能体不只会拒绝，还能修复危险计划

UniRL：腾讯混元开源多模态RL训练框架

UniRL：腾讯混元开源多模态RL训练框架

解决什么问题

支持的模型

内置算法与奖励系统

算法侧

奖励侧

核心设计

如何使用

作者

分类

相关文章

TerminalWorld：首个真实 CLI 工作流 Agent 基准

若愚揽月01：全球首个AI防爆机器人，自己给真车加油

TRIAD：让AI智能体不只会拒绝，还能修复危险计划