NVIDIA Lyra 2.0：一张照片生成可漫游3D世界

NVIDIA发布了Lyra 2.0并完全开源。你只需要上传一张普通的2D图片，它就能生成一个可以四处走动、回头张望的3D交互世界。这不是简单的2D转3D——生成的是完整的3D高斯泼溅（Gaussian Splatting）场景和表面网格，可以直接导出到物理引擎用于机器人仿真。

Lyra 2.0 是什么

简单说：一张照片 -> 一个可探索的3D世界。

Lyra 2.0以Wan 2.1-14B（140亿参数的扩散Transformer）作为视频生成底座，通过三步流水线完成从图片到3D世界的转换：

图片变视频：输入一张图片和一条摄像机轨迹，生成一段"漫游视频"，分辨率832x480，蒸馏版本只需4步去噪
视频变3D：生成的视频帧送入前馈3D重建模型，直接输出3D高斯泼溅和表面网格，不需要多视角真实数据
3D可交互：提供交互式GUI，你可以在累积的点云中规划摄像机路径，重访已探索区域，或探索新区域

解决了什么问题：空间遗忘和时间漂移

这是Lyra 2.0最核心的突破。过去所有"长时程3D生成"方法都面临两个致命问题：

空间遗忘：摄像机走远后回头看，之前生成的内容（沙发、画、窗户）全变了
时间漂移：每帧生成的微小误差累积几百帧后，整个场景面目全非

Lyra 2.0的解法：

对抗空间遗忘：维护每帧的3D几何信息，但只用来检索相关历史帧建立空间对应关系，不直接渲染。相当于给模型装了一个"空间记忆GPS"
对抗时间漂移：采用"自增强训练"策略，训练时故意用模型自己带退化的输出来替代完美输入，让模型学会"看到漂移就纠正"

消融实验验证了这两项技术的必要性：去掉抗遗忘机制，回访区域出现严重幻觉；去掉自增强训练，长轨迹上漂移肉眼可见。

实际性能

在DL3DV和Tanks and Temples两个经典基准上，Lyra 2.0全面超越所有基线方法。相比Lyra 1.0（2025年9月发布），2.0实现了从"短视频3D重建"到"大规模持久世界生成"的跃升：

视频生成底座从Cosmos升级到Wan 2.1-14B
重建模型针对生成数据做了微调，对小型几何不一致具有更强鲁棒性
支持大幅视角变化和位置重访的长摄像机轨迹

实用场景

生成的3D高斯泼溅和网格模型可以直接导出到物理引擎，包括NVIDIA自家的Isaac Sim，用于：

具身AI训练：为机器人导航提供仿真环境，不用再去真实世界采数据
场景可视化：老照片、建筑设计图变成可走入的3D空间
游戏开发：快速生成可用的3D场景原型

提示：Lyra 2.0目前本质上是"记忆+补全"，不真正理解场景的物理结构。推倒一面墙不会影响隔壁房间，水不会往低处流。它更像是视觉想象力极强的场景生成器，而非物理世界模拟器。

获取方式

所有资源完全免费开源：

项目页面：https://research.nvidia.com/labs/sil/projects/lyra2/
开源代码：https://github.com/nv-tlabs/lyra
论文：https://arxiv.org/abs/2604.13036

Lyra 2.0 是什么

简单说：一张照片 -> 一个可探索的3D世界。

Lyra 2.0以Wan 2.1-14B（140亿参数的扩散Transformer）作为视频生成底座，通过三步流水线完成从图片到3D世界的转换：

图片变视频：输入一张图片和一条摄像机轨迹，生成一段"漫游视频"，分辨率832x480，蒸馏版本只需4步去噪
视频变3D：生成的视频帧送入前馈3D重建模型，直接输出3D高斯泼溅和表面网格，不需要多视角真实数据
3D可交互：提供交互式GUI，你可以在累积的点云中规划摄像机路径，重访已探索区域，或探索新区域

解决了什么问题：空间遗忘和时间漂移

这是Lyra 2.0最核心的突破。过去所有"长时程3D生成"方法都面临两个致命问题：

空间遗忘：摄像机走远后回头看，之前生成的内容（沙发、画、窗户）全变了
时间漂移：每帧生成的微小误差累积几百帧后，整个场景面目全非

Lyra 2.0的解法：

对抗空间遗忘：维护每帧的3D几何信息，但只用来检索相关历史帧建立空间对应关系，不直接渲染。相当于给模型装了一个"空间记忆GPS"
对抗时间漂移：采用"自增强训练"策略，训练时故意用模型自己带退化的输出来替代完美输入，让模型学会"看到漂移就纠正"

消融实验验证了这两项技术的必要性：去掉抗遗忘机制，回访区域出现严重幻觉；去掉自增强训练，长轨迹上漂移肉眼可见。

实际性能

视频生成底座从Cosmos升级到Wan 2.1-14B
重建模型针对生成数据做了微调，对小型几何不一致具有更强鲁棒性
支持大幅视角变化和位置重访的长摄像机轨迹

实用场景

生成的3D高斯泼溅和网格模型可以直接导出到物理引擎，包括NVIDIA自家的Isaac Sim，用于：

具身AI训练：为机器人导航提供仿真环境，不用再去真实世界采数据
场景可视化：老照片、建筑设计图变成可走入的3D空间
游戏开发：快速生成可用的3D场景原型

提示：Lyra 2.0目前本质上是"记忆+补全"，不真正理解场景的物理结构。推倒一面墙不会影响隔壁房间，水不会往低处流。它更像是视觉想象力极强的场景生成器，而非物理世界模拟器。

获取方式

所有资源完全免费开源：

项目页面：https://research.nvidia.com/labs/sil/projects/lyra2/
开源代码：https://github.com/nv-tlabs/lyra
论文：https://arxiv.org/abs/2604.13036

全部

AI教程

AI产品

AI资源

NVIDIA Lyra 2.0：一张照片生成可漫游3D世界

NVIDIA Lyra 2.0：一张照片生成可漫游3D世界

Lyra 2.0 是什么

解决了什么问题：空间遗忘和时间漂移

实际性能

实用场景

获取方式

作者

分类

相关文章

Claude免费开放交互式图表：AI对话中的可视化白板

CodeTracer：精准定位AI代码Agent失败根源的开源框架

329条GPT-Image-2提示词模板：工业级出图引擎

NVIDIA Lyra 2.0：一张照片生成可漫游3D世界

NVIDIA Lyra 2.0：一张照片生成可漫游3D世界

Lyra 2.0 是什么

解决了什么问题：空间遗忘和时间漂移

实际性能

实用场景

获取方式

作者

分类

相关文章

Claude免费开放交互式图表：AI对话中的可视化白板

CodeTracer：精准定位AI代码Agent失败根源的开源框架

329条GPT-Image-2提示词模板：工业级出图引擎