腾讯开源 HY-World 2.0,支持文字、图片、视频输入生成可漫游的3D空间,输出 Mesh/3DGS 资产可直接导入游戏引擎。


腾讯开源 HY-World 2.0,支持文字、图片、视频输入生成可漫游的3D空间,输出 Mesh/3DGS 资产可直接导入游戏引擎。
腾讯混元团队发布了 3D 世界模型 2.0(HY-World 2.0),这是一款多模态世界模型,能够理解文字、图片、视频输入,自动生成可漫游、可交互、可二次编辑的 3D 世界。与之前只能生成视频的世界模型不同,HY-World 2.0 直接输出可导入 Unity、UE 等引擎的 3D 资产。
适合人群:游戏开发者、关卡设计师、具身智能研究者、3D 内容创作者。
简单类比:以前的世界模型给你一段视频,HY-World 2.0 给你一个可以走进去的空间。
HY-World 2.0 的核心能力是三个:世界生成(从文字/图片/视频创建3D空间)、世界重建(从多视角图片重建精确3D场景)、全景图生成。
输入"生成一个温馨的绘本风格小木屋",即可生成角色可自由穿行的3D空间。
用户可以操作角色在生成的3D场景中自由探索,具备物理碰撞效果。角色走楼梯、过桥梁时移动形态自然流畅,可用于测试空间结构。
生成的场景采用 3D 高斯泼溅(3DGS)表示,同时可导出高质量 Mesh。支持格式包括 Mesh、3DGS、点云等,可直接无缝导入 Unity、UE 等主流游戏引擎进行二次编辑。
HY-Pano-2.0 方案采用端到端隐式学习,无需任何相机参数,就能从普通图片或视频生成 360 度全景映射。混元团队通过真实全景照片和 UE 合成数据混合训练来保证质量。

结合自研空间 Agent 技术和 Navmesh 表征,模型可自动规划角色漫游路径。根据场景语义规划五类运镜轨迹(环绕物体、最大漫游等),覆盖关键区域的同时避免穿墙。
通过精确的相机控制、细粒度视觉细节保持和空间一致性记忆机制,多条运镜的生成结果保持空间一致不冲突。后训练算法确保在快速扩展新区域时画面质量不衰减。
文字生成:输入"生成一个原神风格的空中花园迷宫",纵深的平台、曲折的楼梯、藤蔓桥梁、彩色玻璃等细节还原较好。角色可在场景中自由漫步。
视频输入:用《生化危机》实况视频,模型能捕捉角色运动轨迹和街道两侧布景,但3D还原完整度还有提升空间。
多视角图片:使用 32 张三层屋檐建筑素材,模型复刻建筑外型和层级结构效果最好,细节和层次感保留完整。
