toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,295个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

UniRL:腾讯混元开源多模态RL训练框架

2026/06/17
·toolin小编

腾讯混元庞天宇团队开源UniRL,一套框架打通图像、视频、LLM多模态生成模型的强化学习训练,支持SD3、HunyuanVideo、Qwen等主流模型。

UniRL:腾讯混元开源多模态RL训练框架
UniRL:腾讯混元开源多模态RL训练框架
2026/06/17

UniRL:腾讯混元开源多模态RL训练框架

腾讯混元庞天宇团队开源UniRL,一套框架打通图像、视频、LLM多模态生成模型的强化学习训练,支持SD3、HunyuanVideo、Qwen等主流模型。

解决什么问题支持的模型内置算法与奖励系统算法侧奖励侧核心设计如何使用
AI产品

UniRL 是腾讯混元团队(庞天宇团队)开源的多模态生成模型强化学习后训练框架。它解决了一个长期痛点:图像扩散模型一套训练流程、视频生成另一套标准、VLM 和 LLM 又有不同的技术栈。UniRL 把这些全部统一到一套框架里。

解决什么问题

多模态生成模型的 RL 训练面临四大挑战:

  1. 生成过程不同:LLM 处理离散 token 序列,图像/视频生成对应连续潜空间中的去噪轨迹。统一模型的一次 rollout 还会混合 token 生成与 latent 去噪。

  2. 系统闭环难稳定:rollout、log-prob replay 与策略更新跨多个模型和后端,训练侧必须严格复现采样侧的条件、噪声、时间步,否则产生 Training-Inference Mismatch。

  3. 奖励系统更重:多模态 reward 往往依赖 VLM、OCR、美学模型、视频理解模型,不是简单的文本规则。

  4. 显存压力大:中间产物是高维 latent、噪声、时间步和条件状态,视频生成中随分辨率和帧数快速放大。

这导致行业现状是"一个模型一套训练代码",开发者大量时间浪费在重复的工程实现上。

UniRL 框架架构

UniRL 统一多模态 RL 闭环:rollout -> reward -> advantage -> train -> weight-sync。

支持的模型

UniRL 提供了业界最广泛的多模态生成模型支持:

领域支持模型
图像生成SD3/3.5、Qwen-Image、Z-Image、FLUX.2-Klein
视频生成HunyuanVideo 1.0&1.5、WAN 系列
大语言模型Qwen3 系列
多模态理解Qwen-VL 系列
原生统一模型HunyuanImage 3.0、Bagel
组合式模型LLM/VLM + Diffusion 的 Prompt-Enhancer

内置算法与奖励系统

算法侧

  • Policy-gradient 家族:FlowGRPO、DanceGRPO、MixGRPO、LLM/VLM GRPO
  • Forward-process 家族:DiffusionNFT(无需完整 SDE rollout 的高效训练)
  • 腾讯混元自研:
    • Flow-DPPO:用逐步 KL 散度近端约束替代 PPO ratio clipping,实现更稳定的 flow/diffusion 模型 RL 训练
    • DRPO:用 advantage 加权的平滑策略偏移正则项替代硬裁剪/掩码,在越过信任域边界时仍提供连续梯度修正

奖励侧

UniRL 集成了多类常用 reward 组件:

  • 规则/相似度:CLIPScore、GOT-OCR-2.0
  • 偏好/美学:PickScore、HPSv2/HPSv3、ImageReward
  • VLM-as-judge:UnifiedReward、GenEval2、WISE
  • 视频评估:VideoPickScore、VideoAlign

核心设计

UniRL 以 Ray worker group、Hydra flat recipe、可组合训练后端和可插拔 rollout engine 为核心骨架。它用轨迹(track)表示承载不同阶段的生成轨迹:AR 阶段是 TextSegment,图像生成阶段是 LatentSegment,不同 track 之间通过 parent-child 关系连接。

这使得 Bagel、HunyuanImage 3.0 这类统一多模态模型(先 AR 文本思考、再 DiT 图像生成)的链式流程可以被自然表示。

如何使用

  • GitHub 代码库: https://github.com/Tencent-Hunyuan/UniRL
  • 官方文档: https://unirl-project.github.io/unirl/
  • Flow-DPPO 论文: https://arxiv.org/pdf/2606.11025
  • DRPO 论文: https://arxiv.org/pdf/2606.09821

框架提供了完善的 examples,方便快速启动实验和复现算法。目前仍处于活跃迭代阶段,后续将继续扩展 rollout engine 支持、优化大规模训练性能。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
解决什么问题支持的模型内置算法与奖励系统算法侧奖励侧核心设计如何使用

相关文章

Agnes AI 全模态API无限期免费,本周升级1M上下文与4K生图
AI产品

Agnes AI 全模态API无限期免费,本周升级1M上下文与4K生图

Agnes AI 无限期免费开放文本、图片、视频全模态模型API,本周升级1M超长上下文和4K超高清文生图能力。

avatar for toolin小编
toolin小编
1天前
Claude Design 大更新:设计系统一键导入,代码双向同步
AI产品

Claude Design 大更新:设计系统一键导入,代码双向同步

Anthropic 推出 Claude Design 重大更新,支持设计系统导入、/design-sync 和 /design 代码双向同步及9大平台导出。

avatar for toolin小编
toolin小编
1天前
AI版支付宝内测体验:一句话点麦当劳、自动收能量
AI产品

AI版支付宝内测体验:一句话点麦当劳、自动收能量

AI版支付宝开启内测,引入智能助手阿宝,支持语音指令操作小程序,附邀请码获取方式和使用体验。

avatar for toolin小编
toolin小编
1天前