toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具997个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

NVIDIA Lyra 2.0:一张照片生成可漫游3D世界

2026/04/27
·toolin小编

NVIDIA开源Lyra 2.0,单张2D图片直出3D高斯泼溅场景,支持持久探索和回访,可直接导出到物理引擎。

NVIDIA Lyra 2.0:一张照片生成可漫游3D世界
NVIDIA Lyra 2.0:一张照片生成可漫游3D世界
2026/04/27

NVIDIA Lyra 2.0:一张照片生成可漫游3D世界

NVIDIA开源Lyra 2.0,单张2D图片直出3D高斯泼溅场景,支持持久探索和回访,可直接导出到物理引擎。

Lyra 2.0 是什么解决了什么问题:空间遗忘和时间漂移实际性能实用场景获取方式
AI产品

NVIDIA发布了Lyra 2.0并完全开源。你只需要上传一张普通的2D图片,它就能生成一个可以四处走动、回头张望的3D交互世界。这不是简单的2D转3D——生成的是完整的3D高斯泼溅(Gaussian Splatting)场景和表面网格,可以直接导出到物理引擎用于机器人仿真。

Lyra 2.0 是什么

简单说:一张照片 -> 一个可探索的3D世界。

Lyra 2.0以Wan 2.1-14B(140亿参数的扩散Transformer)作为视频生成底座,通过三步流水线完成从图片到3D世界的转换:

  1. 图片变视频:输入一张图片和一条摄像机轨迹,生成一段"漫游视频",分辨率832x480,蒸馏版本只需4步去噪
  2. 视频变3D:生成的视频帧送入前馈3D重建模型,直接输出3D高斯泼溅和表面网格,不需要多视角真实数据
  3. 3D可交互:提供交互式GUI,你可以在累积的点云中规划摄像机路径,重访已探索区域,或探索新区域

解决了什么问题:空间遗忘和时间漂移

这是Lyra 2.0最核心的突破。过去所有"长时程3D生成"方法都面临两个致命问题:

  • 空间遗忘:摄像机走远后回头看,之前生成的内容(沙发、画、窗户)全变了
  • 时间漂移:每帧生成的微小误差累积几百帧后,整个场景面目全非

Lyra 2.0的解法:

  • 对抗空间遗忘:维护每帧的3D几何信息,但只用来检索相关历史帧建立空间对应关系,不直接渲染。相当于给模型装了一个"空间记忆GPS"
  • 对抗时间漂移:采用"自增强训练"策略,训练时故意用模型自己带退化的输出来替代完美输入,让模型学会"看到漂移就纠正"

消融实验验证了这两项技术的必要性:去掉抗遗忘机制,回访区域出现严重幻觉;去掉自增强训练,长轨迹上漂移肉眼可见。

实际性能

在DL3DV和Tanks and Temples两个经典基准上,Lyra 2.0全面超越所有基线方法。相比Lyra 1.0(2025年9月发布),2.0实现了从"短视频3D重建"到"大规模持久世界生成"的跃升:

  • 视频生成底座从Cosmos升级到Wan 2.1-14B
  • 重建模型针对生成数据做了微调,对小型几何不一致具有更强鲁棒性
  • 支持大幅视角变化和位置重访的长摄像机轨迹

实用场景

生成的3D高斯泼溅和网格模型可以直接导出到物理引擎,包括NVIDIA自家的Isaac Sim,用于:

  • 具身AI训练:为机器人导航提供仿真环境,不用再去真实世界采数据
  • 场景可视化:老照片、建筑设计图变成可走入的3D空间
  • 游戏开发:快速生成可用的3D场景原型

提示:Lyra 2.0目前本质上是"记忆+补全",不真正理解场景的物理结构。推倒一面墙不会影响隔壁房间,水不会往低处流。它更像是视觉想象力极强的场景生成器,而非物理世界模拟器。

获取方式

所有资源完全免费开源:

  • 项目页面:https://research.nvidia.com/labs/sil/projects/lyra2/
  • 开源代码:https://github.com/nv-tlabs/lyra
  • 论文:https://arxiv.org/abs/2604.13036
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI产品
Lyra 2.0 是什么解决了什么问题:空间遗忘和时间漂移实际性能实用场景获取方式

相关文章

Claude免费开放交互式图表:AI对话中的可视化白板
AI产品

Claude免费开放交互式图表:AI对话中的可视化白板

Anthropic为Claude新增交互式图表和流程图功能,免费用户可用,支持生成可点击的周期表、时间线、决策树等可视化内容。

avatar for toolin小编
toolin小编
11小时前
CodeTracer:精准定位AI代码Agent失败根源的开源框架
AI产品

CodeTracer:精准定位AI代码Agent失败根源的开源框架

南大快手联合提出CodeTracer框架,无需重训即可自动定位Coding Agent失败节点,F1分数比基线提升近30个百分点。

avatar for toolin小编
toolin小编
2天前
329条GPT-Image-2提示词模板:工业级出图引擎
AI教程

329条GPT-Image-2提示词模板:工业级出图引擎

开源项目awesome-gpt-image-2逆向工程329条GPT-Image-2提示词,提供JSON/YAML结构化模板,支持Agent批量出图零幻觉。

avatar for toolin小编
toolin小编
2天前