![]()
新智元报道
编辑:KingHZ
【新智元导读】谷歌还在闭源守宝,NVIDIA已把Lyra 2.0全开源:35步去噪变4步,2D图片直出3D高斯泼溅+网格。社交狂欢背后,是对具身AI仿真的巨大潜力——以后造世界,不用再去真实世界采数据了。
AI闭源时代,快要结束了!
你有没有过这样的幻想:盯着一张多年前的老照片——也许是你童年住过的老屋,也许是一次难忘旅行中的街角——
在心里默念:「如果能再走进去看一眼就好了。」
在过去,这叫《盗梦空间》。但在2026年的今天,它变成了现实。
就在刚刚,AI圈发生了一场「核爆」:NVIDIA正式发布并100%开源了Lyra 2.0。
你只需要上传一张普通的2D图片,鼠标一点,它就能瞬间将其「吹胀」成一个深邃的、可以四处走动、可以回头张望的3D交互世界。
当谷歌还在把类似的技术(Genie 3)像传家宝一样锁在闭源的保险箱里时,NVIDIA却把这把「造物主的画笔」免费扔到了大街上。
![]()
项目地址:https://research.nvidia.com/labs/sil/projects/lyra2/
开源代码:https://github.com/nv-tlabs/lyra
预印本:https://arxiv.org/abs/2604.13036
这不仅让社交媒体陷入狂欢,更让无数开发者在Reddit上惊呼:「这是终结AI视频环境连续性问题的一大步!」
![]()
但这绝不仅仅是一个让老照片变立体的炫酷玩具。
在这场看似慷慨的「技术开源」背后,藏着NVIDIA对未来十年物理世界最冷酷的收割逻辑。
到底怎么做到的?
一场优雅的技术暴力
让我们从头捋一遍Lyra 2.0的核心逻辑。
输入:一张图片。输出:一个持久的、可探索的3D世界。
听起来像魔法,但NVIDIA的工程师们把这个过程拆解成了一条极其精密的流水线:
![]()
第一步:图片变视频。
Lyra 2.0以Wan 2.1-14B(一个140亿参数的扩散Transformer)作为视频生成的底座。
给它一张图片和一条摄像机轨迹,它就能生成一段「漫游视频」——就像你拿着摄像机在场景里走了一圈。
分辨率832×480,标准流程需要35步去噪,蒸馏版本只需4步就能出结果。
第二步:视频变3D。
生成的视频帧被送入前馈3D重建模型,直接输出3D高斯泼溅(3D Gaussian Splatting)和表面网格。
不需要多视角真实数据,不需要漫长的优化迭代——前馈一步到位,高斯点云直接可用。
第三步:3D可交互。
NVIDIA提供了一个交互式GUI,你可以在累积的点云中规划摄像机路径,重访已经探索过的区域,或者勇闯未知之地。
当你移动时,Lyra 2.0实时生成新的场景内容。
最终的3D高斯泼溅和网格模型可以直接导出到物理引擎——包括NVIDIA自家的Isaac Sim——用于机器人导航、物理仿真、具身AI训练。
一张照片到一个能跑机器人的仿真世界,就这么简单。
但真正让Lyra 2.0封神的,不是这条流水线本身——而是它解决了两个让所有前辈都头疼到秃顶的致命问题。
AI 3D世界的两大噩梦
「空间遗忘」和「时间漂移」
想象你在用AI生成一个大型3D场景。
你从客厅出发,穿过走廊,走进卧室,再回头看客厅——完蛋了。客厅变了。
沙发换了位置,墙上的画消失了,窗户的形状都不一样了。
AI「忘记」了它之前生成的东西。这就是空间遗忘(Spatial Forgetting)。
为什么会这样?因为当前的视频模型是自回归生成的,有一个有限的时间上下文窗口。
当摄像机走远了,早期的帧就从上下文中掉了出去。等你回头看,模型只能凭空「幻觉」出新的结构,和原来的完全对不上。
还有一个更阴险的问题:时间漂移(Temporal Drifting)。
每一帧的生成都会引入一点点微小的误差——颜色偏一点,几何歪一点。
一帧看不出来,十帧看不出来,但几百帧累积下来,整个场景就像被放进了哈哈镜,面目全非。
![]()
这两个问题是所有「长时程3D生成」方法的阿喀琉斯之踵。
之前的方法用3D几何做条件约束,但生成瑕疵会污染3D几何,3D几何又反过来带偏后续生成,恶性循环;用长上下文窗口硬扛,但摄像机一走远,锚定帧就失效了。
Lyra 2.0的解法,堪称教科书级别的工程智慧:
![]()
对付空间遗忘:几何只做「路由」,不做「渲染」。
Lyra 2.0维护了每一帧的3D几何信息,但关键在于——
这些几何信息只用来检索相关的历史帧并建立密集的空间对应关系,而不是直接拿去渲染或做像素级条件约束。
换句话说,几何负责「告诉模型应该参考哪些老画面,以及新画面和老画面在空间上怎么对应」,而实际的像素合成还是交给扩散模型的生成先验来完成。
这就像给模型装了一个「空间记忆GPS」,它永远知道自己走过哪里、看过什么,但不会被历史残留的渲染错误带偏。
对付时间漂移:让模型「吃自己的苦果」学会纠错。
NVIDIA提出了一种「自增强训练」策略。
在训练时,不总是给模型完美的真实帧作为历史条件,而是故意用模型自己一步去噪后的(带退化的)输出来替代。
这样在训练中,模型就已经见识过了「自己犯的错」,学会了「看到漂移就纠正」而不是「看到漂移就继续漂」。
这种以毒攻毒的策略,直接缩小了训练和推理之间的分布差距。
两招组合拳打下来,Lyra 2.0实现了远超前辈的长时程3D一致性——场景可以无限延展、自由回访,而且不会「转身就忘」。
![]()
实测数据:全面碾压
说得再好听不如看数据。
在DL3DV和Tanks and Temples两个经典基准上,Lyra 2.0的表现用「降维打击」来形容毫不过分。
更关键的是和基线方法的对比。
Lyra 2.0的两个变体——搭配DAv3重建模型和完整版——在LPIPS-G、FID和主观质量评分上全面超越所有基线方法。
![]()
和Lyra 1.0相比,2.0的进化是质的飞跃:
1.0的局限:2025年9月发布的Lyra 1.0已经很强了——它首创了「视频扩散模型自蒸馏」的范式,用单张图片生成3D高斯场景,发表在ICLR 2026上。但它只能处理短视频、小范围场景,做不了长时程探索。
2.0的突破:从「短视频3D重建」跃升到「大规模持久世界生成」。抗遗忘、抗漂移两大机制,让它能处理包含大幅视角变化和位置重访的长摄像机轨迹——这在1.0时代是不可能的任务。
底座升级:视频生成底座从1.0的Cosmos换到了2.0的Wan 2.1-14B,视觉保真度和生成能力都上了一个台阶。重建模型也做了针对生成数据的微调,对AI生成内容中常见的小型几何不一致具有更强的鲁棒性。
消融实验进一步验证了每项技术的贡献:
去掉抗遗忘机制,回访区域出现严重幻觉;
去掉自增强训练,长轨迹上的漂移肉眼可见;
两项联合使用才能得到最佳结果。
![]()
高维视角
3D世界模型的「智能困境」
我们也需要冷静地看到,无论是Lyra 2.0还是Genie 3,AI生成3D世界这件事目前都还面临一个深层困境——前沿智能的天花板。
什么意思?
当前的3D世界生成,本质上是在「视觉保真度」这个维度上疯狂内卷。
场景越来越逼真,几何越来越精确,一致性越来越好。
但这些生成出来的世界,本质上还是「死」的——它们没有物理规律的深层理解,没有因果推理,没有对「这个世界为什么是这样」的认知。
Genie 3号称有「涌现物理」,但它的物理一致性只能维持几分钟,复杂场景下很快就会出现违反常识的行为。
Lyra 2.0生成的3D资产非常精美,但它本质上是「记忆+补全」——用空间记忆防止遗忘,用自增强防止漂移,但并不真正「理解」场景的物理结构。
真正的3D世界模型,应该能够:
理解因果关系:推倒一面墙,隔壁房间会暴露出来;
遵循物理定律:水往低处流,球会弹跳;
保持语义一致性:厨房里不会突然冒出一架钢琴。
这需要的不仅仅是更大的模型、更多的训练数据,而是AI在世界建模能力上的根本性突破——从「统计模式匹配」走向「因果世界理解」。
目前来看,视频扩散模型作为3D世界生成的底座,已经展现出了惊人的视觉想象力和局部3D一致性。
但要从「好看的3D场景」跨越到「真正可信的世界模拟」,还有一段很长的路要走。
这可能也是为什么NVIDIA选择开源的原因之一——单打独斗到不了那个未来,但全世界的开发者一起搞,也许可以。
最后,NVIDIA还展示了交互式GUI、Isaac Sim仿真导出、表面网格提取等一系列实用功能。
![]()
翻译成人话就是:以后AI造世界,人不用去世界里采数据了。
AI不再只是画画、写诗、编代码的工具。它正在成为一个世界建造者。
而NVIDIA刚刚把造世界的钥匙,交给了所有人。
参考资料:
https://research.nvidia.com/labs/sil/projects/lyra2/