NVIDIA联合清华开源多智能体世界模型,双人训练直接泛化到四人,支持零样本多人场景实时推演


NVIDIA联合清华开源多智能体世界模型,双人训练直接泛化到四人,支持零样本多人场景实时推演
现有的视频世界模型(Sora、Cosmos、Genie)都默认世界里只有一个参与者。但真实场景中,多人游戏、工厂产线、机器人协作都需要多个智能体共享同一个演化世界。NVIDIA 联合清华大学、多伦多大学发布的 Gamma-World 从底层重新设计了位置编码和注意力机制,让多智能体世界模型真正可扩展、可泛化。
单智能体世界模型只需要保证时间一致性。多智能体设定要求模型同时维护三重一致性:
此前最强的方案 Solaris 存在两个结构性缺陷:身份编码破坏了对称性(1 号和 2 号玩家被学成了不同角色),全连接注意力的计算量随玩家数平方增长。
Gamma-World 在标准视频 RoPE 的三个轴(时间、高度、宽度)之外加了第四个轴:玩家轴。关键在于玩家轴上的编码方式。
它把所有玩家放在一个正单纯形(regular simplex)的顶点上:

无论哪两个玩家,他们在旋转角空间里的距离完全一样,谁也不比谁特殊。这个编码不需要任何可学习参数,推理时想支持更多玩家,从顶点池里多取几个顶点就行,架构不用改、不用重新训练。
全连接注意力让所有 token 两两交互,8 个玩家时计算量达到 7.6T。Gamma-World 引入一组可学习的 hub token 作为共享通信枢纽:

计算成本从平方复杂度压到线性复杂度。8 个玩家时,Gamma-World 的算力消耗只有全连接方案的 八分之一,延迟从 17.6ms 降到 4.5ms。
从双向教师(质量最高但无法流式)到因果学生(支持流式但质量下降),通过条件 Self-Forcing 蒸馏将多步采样压缩为 4 步采样,最终实现 24 FPS 流式推演。
模型仅在双人数据上训练,推理时直接生成四路同步视角,无需修改任何架构参数。

这是单纯形编码的直接验证:泛化到任意玩家数不需要见过那个数量的训练数据。
同一套框架从 Minecraft 直接迁移到真实双臂机器人协同任务,左右两条机械臂各作为独立智能体,生成的未来帧保持双臂协同运动和空间布局,无需额外适配。
在多人 Minecraft 的五类场景中,Gamma-World 的 FVD(视频生成质量指标)平均降幅超过 40%。消融实验表明,单纯形编码带来了最大的单步增益。
Gamma-World 的核心方法论是将对问题结构的理解直接编码进架构,而非期待模型从数据中自行发现。如果你在做多智能体仿真、机器人协作或游戏 AI 相关的工作,这个框架值得深入关注。

开源免费的 Codex 实战指南发布,涵盖桌面端安装、手机端远程操控、国内三种接入方案,帮你从零跑通 OpenAI Codex。

商汤开源的 8B 参数信息图生成模型,Apache 2.0 协议支持商用,文字渲染稳定、版面控制精准,成本约为闭源方案的十分之一。

从资产准备到剪辑拼接的完整流程,教你用 AI 工具链制作 115 秒品牌广告长视频,解决人脸漂移、场景不统一等核心痛点。