提交AI工具提交

Gamma-World：开源多智能体世界模型

2026/05/31

·toolin小编

NVIDIA联合清华开源多智能体世界模型，双人训练直接泛化到四人，支持零样本多人场景实时推演

Gamma-World：开源多智能体世界模型

Gamma-World：开源多智能体世界模型

2026/05/31

Gamma-World：开源多智能体世界模型

NVIDIA联合清华开源多智能体世界模型，双人训练直接泛化到四人，支持零样本多人场景实时推演

核心问题：为什么多智能体这么难三个核心设计 1. 正单纯形旋转编码（Simplex Rotary Agent Encoding）2. 稀疏枢纽注意力（Sparse Hub Attention）3. 三阶段蒸馏关键结果零样本四人泛化从游戏到真实机器人全面超越 Solaris 获取方式适用场景

现有的视频世界模型（Sora、Cosmos、Genie）都默认世界里只有一个参与者。但真实场景中，多人游戏、工厂产线、机器人协作都需要多个智能体共享同一个演化世界。NVIDIA 联合清华大学、多伦多大学发布的 Gamma-World 从底层重新设计了位置编码和注意力机制，让多智能体世界模型真正可扩展、可泛化。

核心问题：为什么多智能体这么难

单智能体世界模型只需要保证时间一致性。多智能体设定要求模型同时维护三重一致性：

时间一致性：画面在时序上连贯
跨视角一致性：玩家 A 在玩家 B 视野中的呈现与 A 的轨迹吻合
交互一致性：多个智能体对共享环境的操作在所有视角中产生一致的状态变化

此前最强的方案 Solaris 存在两个结构性缺陷：身份编码破坏了对称性（1 号和 2 号玩家被学成了不同角色），全连接注意力的计算量随玩家数平方增长。

三个核心设计

1. 正单纯形旋转编码（Simplex Rotary Agent Encoding）

Gamma-World 在标准视频 RoPE 的三个轴（时间、高度、宽度）之外加了第四个轴：玩家轴。关键在于玩家轴上的编码方式。

它把所有玩家放在一个正单纯形（regular simplex）的顶点上：

2 个玩家 = 线段两端
3 个玩家 = 等边三角形的三个顶点
4 个玩家 = 正四面体的四个顶点

正单纯形编码示意图

无论哪两个玩家，他们在旋转角空间里的距离完全一样，谁也不比谁特殊。这个编码不需要任何可学习参数，推理时想支持更多玩家，从顶点池里多取几个顶点就行，架构不用改、不用重新训练。

2. 稀疏枢纽注意力（Sparse Hub Attention）

全连接注意力让所有 token 两两交互，8 个玩家时计算量达到 7.6T。Gamma-World 引入一组可学习的 hub token 作为共享通信枢纽：

每个智能体只与自身历史及 hub token 交互
hub token 汇聚所有智能体信息后广播回去
信息路径变为两跳：智能体 -> hub -> 智能体

Sparse Hub Attention vs Dense Attention

计算成本从平方复杂度压到线性复杂度。8 个玩家时，Gamma-World 的算力消耗只有全连接方案的 八分之一，延迟从 17.6ms 降到 4.5ms。

3. 三阶段蒸馏

从双向教师（质量最高但无法流式）到因果学生（支持流式但质量下降），通过条件 Self-Forcing 蒸馏将多步采样压缩为 4 步采样，最终实现 24 FPS 流式推演。

关键结果

零样本四人泛化

模型仅在双人数据上训练，推理时直接生成四路同步视角，无需修改任何架构参数。

四人Minecraft零样本泛化

这是单纯形编码的直接验证：泛化到任意玩家数不需要见过那个数量的训练数据。

从游戏到真实机器人

同一套框架从 Minecraft 直接迁移到真实双臂机器人协同任务，左右两条机械臂各作为独立智能体，生成的未来帧保持双臂协同运动和空间布局，无需额外适配。

全面超越 Solaris

在多人 Minecraft 的五类场景中，Gamma-World 的 FVD（视频生成质量指标）平均降幅超过 40%。消融实验表明，单纯形编码带来了最大的单步增益。

获取方式

项目主页：https://research.nvidia.com/labs/sil/projects/gamma-world/
GitHub：https://github.com/nv-tlabs/Gamma-World
HuggingFace：https://huggingface.co/papers/2605.28816

适用场景

多人游戏环境的实时模拟与数据生成
多机器人协同任务的仿真训练
具身智能体的多智能体交互研究
Physical AI 领域的神经仿真基础设施

Gamma-World 的核心方法论是将对问题结构的理解直接编码进架构，而非期待模型从数据中自行发现。如果你在做多智能体仿真、机器人协作或游戏 AI 相关的工作，这个框架值得深入关注。

作者

toolin小编

分类

AI产品

核心问题：为什么多智能体这么难三个核心设计 1. 正单纯形旋转编码（Simplex Rotary Agent Encoding）2. 稀疏枢纽注意力（Sparse Hub Attention）3. 三阶段蒸馏关键结果零样本四人泛化从游戏到真实机器人全面超越 Solaris 获取方式适用场景

相关文章

Hallo-Live：实时文本驱动音视频数字人

Hallo-Live：实时文本驱动音视频数字人

开源实时数字人生成方案，文本输入即可同步生成说话视频与语音，20.38 FPS吞吐、0.94秒端到端延迟

Harness工程：AI编程成功率从20%飙到100%

Harness工程：AI编程成功率从20%飙到100%

Anthropic和OpenAI同时验证的结论：AI编程智能体失败的原因不在模型，在Harness。五步搭建你的第一个Harness配置

用Lovart搭建一人公司品牌系统

用Lovart搭建一人公司品牌系统

手把手教你用Lovart的Brand Kit功能管理品牌资产，统一多平台视觉风格，月费19美金起。