toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具1,182个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

Gamma-World:开源多智能体世界模型

2026/05/31
·toolin小编

NVIDIA联合清华开源多智能体世界模型,双人训练直接泛化到四人,支持零样本多人场景实时推演

Gamma-World:开源多智能体世界模型
Gamma-World:开源多智能体世界模型
2026/05/31

Gamma-World:开源多智能体世界模型

NVIDIA联合清华开源多智能体世界模型,双人训练直接泛化到四人,支持零样本多人场景实时推演

核心问题:为什么多智能体这么难三个核心设计1. 正单纯形旋转编码(Simplex Rotary Agent Encoding)2. 稀疏枢纽注意力(Sparse Hub Attention)3. 三阶段蒸馏关键结果零样本四人泛化从游戏到真实机器人全面超越 Solaris获取方式适用场景
AI产品

现有的视频世界模型(Sora、Cosmos、Genie)都默认世界里只有一个参与者。但真实场景中,多人游戏、工厂产线、机器人协作都需要多个智能体共享同一个演化世界。NVIDIA 联合清华大学、多伦多大学发布的 Gamma-World 从底层重新设计了位置编码和注意力机制,让多智能体世界模型真正可扩展、可泛化。

核心问题:为什么多智能体这么难

单智能体世界模型只需要保证时间一致性。多智能体设定要求模型同时维护三重一致性:

  • 时间一致性:画面在时序上连贯
  • 跨视角一致性:玩家 A 在玩家 B 视野中的呈现与 A 的轨迹吻合
  • 交互一致性:多个智能体对共享环境的操作在所有视角中产生一致的状态变化

此前最强的方案 Solaris 存在两个结构性缺陷:身份编码破坏了对称性(1 号和 2 号玩家被学成了不同角色),全连接注意力的计算量随玩家数平方增长。

三个核心设计

1. 正单纯形旋转编码(Simplex Rotary Agent Encoding)

Gamma-World 在标准视频 RoPE 的三个轴(时间、高度、宽度)之外加了第四个轴:玩家轴。关键在于玩家轴上的编码方式。

它把所有玩家放在一个正单纯形(regular simplex)的顶点上:

  • 2 个玩家 = 线段两端
  • 3 个玩家 = 等边三角形的三个顶点
  • 4 个玩家 = 正四面体的四个顶点

正单纯形编码示意图

无论哪两个玩家,他们在旋转角空间里的距离完全一样,谁也不比谁特殊。这个编码不需要任何可学习参数,推理时想支持更多玩家,从顶点池里多取几个顶点就行,架构不用改、不用重新训练。

2. 稀疏枢纽注意力(Sparse Hub Attention)

全连接注意力让所有 token 两两交互,8 个玩家时计算量达到 7.6T。Gamma-World 引入一组可学习的 hub token 作为共享通信枢纽:

  • 每个智能体只与自身历史及 hub token 交互
  • hub token 汇聚所有智能体信息后广播回去
  • 信息路径变为两跳:智能体 -> hub -> 智能体

Sparse Hub Attention vs Dense Attention

计算成本从平方复杂度压到线性复杂度。8 个玩家时,Gamma-World 的算力消耗只有全连接方案的 八分之一,延迟从 17.6ms 降到 4.5ms。

3. 三阶段蒸馏

从双向教师(质量最高但无法流式)到因果学生(支持流式但质量下降),通过条件 Self-Forcing 蒸馏将多步采样压缩为 4 步采样,最终实现 24 FPS 流式推演。

关键结果

零样本四人泛化

模型仅在双人数据上训练,推理时直接生成四路同步视角,无需修改任何架构参数。

四人Minecraft零样本泛化

这是单纯形编码的直接验证:泛化到任意玩家数不需要见过那个数量的训练数据。

从游戏到真实机器人

同一套框架从 Minecraft 直接迁移到真实双臂机器人协同任务,左右两条机械臂各作为独立智能体,生成的未来帧保持双臂协同运动和空间布局,无需额外适配。

全面超越 Solaris

在多人 Minecraft 的五类场景中,Gamma-World 的 FVD(视频生成质量指标)平均降幅超过 40%。消融实验表明,单纯形编码带来了最大的单步增益。

获取方式

  • 项目主页:https://research.nvidia.com/labs/sil/projects/gamma-world/
  • GitHub:https://github.com/nv-tlabs/Gamma-World
  • HuggingFace:https://huggingface.co/papers/2605.28816

适用场景

  • 多人游戏环境的实时模拟与数据生成
  • 多机器人协同任务的仿真训练
  • 具身智能体的多智能体交互研究
  • Physical AI 领域的神经仿真基础设施

Gamma-World 的核心方法论是将对问题结构的理解直接编码进架构,而非期待模型从数据中自行发现。如果你在做多智能体仿真、机器人协作或游戏 AI 相关的工作,这个框架值得深入关注。

所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
核心问题:为什么多智能体这么难三个核心设计1. 正单纯形旋转编码(Simplex Rotary Agent Encoding)2. 稀疏枢纽注意力(Sparse Hub Attention)3. 三阶段蒸馏关键结果零样本四人泛化从游戏到真实机器人全面超越 Solaris获取方式适用场景

相关文章

Codex 全攻略:从入门到国内可用的三种方案
AI教程

Codex 全攻略:从入门到国内可用的三种方案

开源免费的 Codex 实战指南发布,涵盖桌面端安装、手机端远程操控、国内三种接入方案,帮你从零跑通 OpenAI Codex。

avatar for toolin小编
toolin小编
1天前
SenseNova U1:开源信息图生成模型,8B 参数单卡可跑
AI产品

SenseNova U1:开源信息图生成模型,8B 参数单卡可跑

商汤开源的 8B 参数信息图生成模型,Apache 2.0 协议支持商用,文字渲染稳定、版面控制精准,成本约为闭源方案的十分之一。

avatar for toolin小编
toolin小编
1天前
用 Image2 + Seedance 2.0 制作 AI 长视频:品牌广告实操
AI教程

用 Image2 + Seedance 2.0 制作 AI 长视频:品牌广告实操

从资产准备到剪辑拼接的完整流程,教你用 AI 工具链制作 115 秒品牌广告长视频,解决人脸漂移、场景不统一等核心痛点。

avatar for toolin小编
toolin小编
1天前