老黄100%免费开源！老照片炸成可漫游3D宇宙

新智元报道

编辑：KingHZ

【新智元导读】谷歌还在闭源守宝，NVIDIA已把Lyra 2.0全开源：35步去噪变4步，2D图片直出3D高斯泼溅+网格。社交狂欢背后，是对具身AI仿真的巨大潜力——以后造世界，不用再去真实世界采数据了。

AI闭源时代，快要结束了！

你有没有过这样的幻想：盯着一张多年前的老照片——也许是你童年住过的老屋，也许是一次难忘旅行中的街角——

在心里默念：「如果能再走进去看一眼就好了。」

在过去，这叫《盗梦空间》。但在2026年的今天，它变成了现实。

就在刚刚，AI圈发生了一场「核爆」：NVIDIA正式发布并100%开源了Lyra 2.0。

你只需要上传一张普通的2D图片，鼠标一点，它就能瞬间将其「吹胀」成一个深邃的、可以四处走动、可以回头张望的3D交互世界。

当谷歌还在把类似的技术（Genie 3）像传家宝一样锁在闭源的保险箱里时，NVIDIA却把这把「造物主的画笔」免费扔到了大街上。

项目地址：https://research.nvidia.com/labs/sil/projects/lyra2/

开源代码：https://github.com/nv-tlabs/lyra

预印本：https://arxiv.org/abs/2604.13036

这不仅让社交媒体陷入狂欢，更让无数开发者在Reddit上惊呼：「这是终结AI视频环境连续性问题的一大步！」

但这绝不仅仅是一个让老照片变立体的炫酷玩具。

在这场看似慷慨的「技术开源」背后，藏着NVIDIA对未来十年物理世界最冷酷的收割逻辑。

到底怎么做到的？

一场优雅的技术暴力

让我们从头捋一遍Lyra 2.0的核心逻辑。

输入：一张图片。输出：一个持久的、可探索的3D世界。

听起来像魔法，但NVIDIA的工程师们把这个过程拆解成了一条极其精密的流水线：

第一步：图片变视频。

Lyra 2.0以Wan 2.1-14B（一个140亿参数的扩散Transformer）作为视频生成的底座。

给它一张图片和一条摄像机轨迹，它就能生成一段「漫游视频」——就像你拿着摄像机在场景里走了一圈。

分辨率832×480，标准流程需要35步去噪，蒸馏版本只需4步就能出结果。

第二步：视频变3D。

生成的视频帧被送入前馈3D重建模型，直接输出3D高斯泼溅（3D Gaussian Splatting）和表面网格。

不需要多视角真实数据，不需要漫长的优化迭代——前馈一步到位，高斯点云直接可用。

第三步：3D可交互。

NVIDIA提供了一个交互式GUI，你可以在累积的点云中规划摄像机路径，重访已经探索过的区域，或者勇闯未知之地。

当你移动时，Lyra 2.0实时生成新的场景内容。

最终的3D高斯泼溅和网格模型可以直接导出到物理引擎——包括NVIDIA自家的Isaac Sim——用于机器人导航、物理仿真、具身AI训练。

一张照片到一个能跑机器人的仿真世界，就这么简单。

但真正让Lyra 2.0封神的，不是这条流水线本身——而是它解决了两个让所有前辈都头疼到秃顶的致命问题。

AI 3D世界的两大噩梦

「空间遗忘」和「时间漂移」

想象你在用AI生成一个大型3D场景。

你从客厅出发，穿过走廊，走进卧室，再回头看客厅——完蛋了。客厅变了。

沙发换了位置，墙上的画消失了，窗户的形状都不一样了。

AI「忘记」了它之前生成的东西。这就是空间遗忘（Spatial Forgetting）。

为什么会这样？因为当前的视频模型是自回归生成的，有一个有限的时间上下文窗口。

当摄像机走远了，早期的帧就从上下文中掉了出去。等你回头看，模型只能凭空「幻觉」出新的结构，和原来的完全对不上。

还有一个更阴险的问题：时间漂移（Temporal Drifting）。

每一帧的生成都会引入一点点微小的误差——颜色偏一点，几何歪一点。

一帧看不出来，十帧看不出来，但几百帧累积下来，整个场景就像被放进了哈哈镜，面目全非。

这两个问题是所有「长时程3D生成」方法的阿喀琉斯之踵。

之前的方法用3D几何做条件约束，但生成瑕疵会污染3D几何，3D几何又反过来带偏后续生成，恶性循环；用长上下文窗口硬扛，但摄像机一走远，锚定帧就失效了。

Lyra 2.0的解法，堪称教科书级别的工程智慧：

对付空间遗忘：几何只做「路由」，不做「渲染」。

Lyra 2.0维护了每一帧的3D几何信息，但关键在于——

这些几何信息只用来检索相关的历史帧并建立密集的空间对应关系，而不是直接拿去渲染或做像素级条件约束。

换句话说，几何负责「告诉模型应该参考哪些老画面，以及新画面和老画面在空间上怎么对应」，而实际的像素合成还是交给扩散模型的生成先验来完成。

这就像给模型装了一个「空间记忆GPS」，它永远知道自己走过哪里、看过什么，但不会被历史残留的渲染错误带偏。

对付时间漂移：让模型「吃自己的苦果」学会纠错。

NVIDIA提出了一种「自增强训练」策略。

在训练时，不总是给模型完美的真实帧作为历史条件，而是故意用模型自己一步去噪后的（带退化的）输出来替代。

这样在训练中，模型就已经见识过了「自己犯的错」，学会了「看到漂移就纠正」而不是「看到漂移就继续漂」。

这种以毒攻毒的策略，直接缩小了训练和推理之间的分布差距。

两招组合拳打下来，Lyra 2.0实现了远超前辈的长时程3D一致性——场景可以无限延展、自由回访，而且不会「转身就忘」。

实测数据：全面碾压

说得再好听不如看数据。

在DL3DV和Tanks and Temples两个经典基准上，Lyra 2.0的表现用「降维打击」来形容毫不过分。

更关键的是和基线方法的对比。

Lyra 2.0的两个变体——搭配DAv3重建模型和完整版——在LPIPS-G、FID和主观质量评分上全面超越所有基线方法。

和Lyra 1.0相比，2.0的进化是质的飞跃：

1.0的局限：2025年9月发布的Lyra 1.0已经很强了——它首创了「视频扩散模型自蒸馏」的范式，用单张图片生成3D高斯场景，发表在ICLR 2026上。但它只能处理短视频、小范围场景，做不了长时程探索。

2.0的突破：从「短视频3D重建」跃升到「大规模持久世界生成」。抗遗忘、抗漂移两大机制，让它能处理包含大幅视角变化和位置重访的长摄像机轨迹——这在1.0时代是不可能的任务。

底座升级：视频生成底座从1.0的Cosmos换到了2.0的Wan 2.1-14B，视觉保真度和生成能力都上了一个台阶。重建模型也做了针对生成数据的微调，对AI生成内容中常见的小型几何不一致具有更强的鲁棒性。

消融实验进一步验证了每项技术的贡献：

去掉抗遗忘机制，回访区域出现严重幻觉；

去掉自增强训练，长轨迹上的漂移肉眼可见；

两项联合使用才能得到最佳结果。

高维视角

3D世界模型的「智能困境」

我们也需要冷静地看到，无论是Lyra 2.0还是Genie 3，AI生成3D世界这件事目前都还面临一个深层困境——前沿智能的天花板。

什么意思？

当前的3D世界生成，本质上是在「视觉保真度」这个维度上疯狂内卷。

场景越来越逼真，几何越来越精确，一致性越来越好。

但这些生成出来的世界，本质上还是「死」的——它们没有物理规律的深层理解，没有因果推理，没有对「这个世界为什么是这样」的认知。

Genie 3号称有「涌现物理」，但它的物理一致性只能维持几分钟，复杂场景下很快就会出现违反常识的行为。

Lyra 2.0生成的3D资产非常精美，但它本质上是「记忆+补全」——用空间记忆防止遗忘，用自增强防止漂移，但并不真正「理解」场景的物理结构。

真正的3D世界模型，应该能够：

理解因果关系：推倒一面墙，隔壁房间会暴露出来；

遵循物理定律：水往低处流，球会弹跳；

保持语义一致性：厨房里不会突然冒出一架钢琴。

这需要的不仅仅是更大的模型、更多的训练数据，而是AI在世界建模能力上的根本性突破——从「统计模式匹配」走向「因果世界理解」。

目前来看，视频扩散模型作为3D世界生成的底座，已经展现出了惊人的视觉想象力和局部3D一致性。

但要从「好看的3D场景」跨越到「真正可信的世界模拟」，还有一段很长的路要走。

这可能也是为什么NVIDIA选择开源的原因之一——单打独斗到不了那个未来，但全世界的开发者一起搞，也许可以。

最后，NVIDIA还展示了交互式GUI、Isaac Sim仿真导出、表面网格提取等一系列实用功能。

翻译成人话就是：以后AI造世界，人不用去世界里采数据了。

AI不再只是画画、写诗、编代码的工具。它正在成为一个世界建造者。

而NVIDIA刚刚把造世界的钥匙，交给了所有人。

参考资料：

https://research.nvidia.com/labs/sil/projects/lyra2/

【纠错】

【责任编辑:库科詹狼鲨】

深度观察

新华全媒头条丨美国想从中东退场了