VEGA-3D: Generation Models Know Space — Unleashing Implicit 3D Priors for Scene Understanding¶
日期: 2026-03-20
arXiv: 2603.19235
代码: VEGA-3D
领域: 3D视觉 / 多模态VLM
关键词: video generation priors, 3D scene understanding, spatial reasoning, latent world simulator, gated fusion
一句话总结¶
提出 VEGA-3D,将冻结的视频生成模型(Wan2.1)作为"隐式世界模拟器",通过噪声注入激活其中间层的 3D 几何先验,经 token 级自适应门控融合注入 MLLM 的语义流中,无需任何显式 3D 标注即可在 ScanRefer/SQA3D/VSI-Bench/LIBERO 上超越依赖 3D 监督的 SOTA。
研究背景与动机¶
-
领域现状: MLLM 在语义理解上表现出色,但存在严重的"空间盲区"——在细粒度几何推理和物理动态理解上能力不足。现有解决方案要么依赖显式 3D 输入(点云、深度),要么需要复杂的几何支架(2D-to-3D lifting)。
-
现有痛点: 显式 3D 方法受限于 3D 数据稀缺和泛化困难;几何支架方法需要复杂多阶段训练和任务特定标注(深度、相机位姿)。标准 MLLM 的训练损失在词汇空间计算,"left" vs "right" 的空间错误被当作普通 token 不匹配,缺乏几何度量约束。
-
核心矛盾: 3D 理解需要几何先验,但获取 3D 标注成本极高。能否找到一个已经隐式学会了 3D 几何的模型?
-
切入角度: 视频生成模型为了生成时间一致的视频,必须隐式学习 3D 结构先验——遮挡需要物体持久性,相机运动揭示深度依赖的视差,交互必须遵循一致的动力学。实验证实 DiT 架构的视频模型多视图一致性 >96%,且与下游 3D 性能强正相关。
-
核心 idea: 将视频扩散模型重新定义为"潜在世界模拟器",提取其中间层特征作为 3D 几何先验,与语义编码器互补融合。
方法详解¶
整体框架¶
双分支视觉编码:语义分支(SigLIP)提供高层语义 + 生成分支(冻结 Wan2.1-T2V 1.3B)提供 3D 几何先验 → token 级自适应门控融合 → 注入 MLLM 解码器。
关键设计¶
-
多视图一致性分析与模型选择:
- 做什么:定义 Multi-view Correspondence Score,将 3D 场景不同视角的编码器特征投射到全局体素网格,计算同一体素在不同视角间的余弦相似度
- 发现:DiT 架构视频模型(如 Wan2.1)一致性 >96%,远超 UNet 架构(SVD、SD);且该分数与下游 3D 性能强正相关
- 设计动机:全局注意力机制比局部卷积更擅长捕获长程几何依赖
-
潜在世界模拟器(Latent World Simulator):
- 做什么:对输入视频的 clean latent 注入噪声激活生成模型的 3D 推理能力
- 核心思路:将视频经 VAE 编码为 \(\mathbf{z}_0\),按 Flow Matching 路径加噪 \(\mathbf{z}_k = (1-t_k)\mathbf{z}_0 + t_k\epsilon\),用空文本 prompt 送入冻结 DiT,提取第 \(l\) 层中间特征 \(\mathbf{f}_{\text{raw}} = \Phi^{(l)}(\mathbf{z}_k, k; \mathbf{c}_{\text{text}}=\text{""})\)
- 设计动机:扩散模型在主动去噪过程中才真正激活结构理解能力;空文本确保特征仅依赖视觉信号和学到的物理规律,避免语义幻觉
- 最佳配置:\(k=300\)(中等噪声水平),第 20 层 DiT
-
自适应门控融合:
- 做什么:通过 token 级门控将生成特征和语义特征动态融合
- 核心思路:两路特征各经 MLP 投射到 LLM 维度后,对每个 token 计算标量门 \(g_i = \sigma(\mathbf{W}_g^\top \text{Concat}(\text{LN}(\mathbf{F}_{\text{gen},i}), \text{LN}(\mathbf{F}_{\text{sem},i})) + b_g)\),最终 \(\mathbf{F}_i = g_i \cdot \mathbf{F}_{\text{gen},i} + (1-g_i) \cdot \mathbf{F}_{\text{sem},i}\)
- 设计动机:不同区域对语义/几何先验的需求不同——文字区域需要语义、定位区域需要几何,per-token gating 实现自适应平衡
实验关键数据¶
3D 场景理解¶
| 方法 | ScanRefer Acc@0.5 | SQA3D EM | Scan2Cap C@0.5 | 说明 |
|---|---|---|---|---|
| Video-3D LLM (baseline) | 51.7 | 58.6 | 102.1 | 无生成先验 |
| VEGA-3D | 56.2 (+4.5) | 61.3 (+2.7) | 106.3 | 无需3D标注 |
| 3DRS (NeurIPS 25, 需3D teacher) | 56.1 | 60.6 | 104.8 | 依赖显式3D监督 |
空间推理 (VSI-Bench)¶
| 方法 | Avg. | Abs. Dist. | Rel. Dir. |
|---|---|---|---|
| Qwen2.5VL-7B (baseline) | 48.9 | 37.0 | 39.7 |
| VEGA-3D | 50.5 | 35.9 | 45.1 |
| VG-LLM-8B (专用空间模型) | 50.1 | 38.0 | 47.0 |
机器人操作 (LIBERO)¶
| 方法 | Avg. SR | Long-horizon |
|---|---|---|
| OpenVLA-OFT (baseline) | 97.0 | 94.4 |
| VEGA-3D | 97.3 | 95.2 |
消融实验¶
| 配置 | ScanRefer Acc@0.5 | SQA3D EM |
|---|---|---|
| 无噪声 (k=0) | ~54 | ~59 |
| 中噪声 (k=300, 最优) | 56.2 | 61.3 |
| 高噪声 (k=800) | ~53 | ~59 |
| DiT Layer 10 | ~54 | ~60 |
| DiT Layer 20 (最优) | 56.2 | 61.3 |
| DiT Layer 30 | ~55 | ~60 |
亮点与洞察¶
- 范式创新:将视频生成模型从"内容生成工具"重新定义为"3D 几何先验提取器"——生成质量好 = 隐式 3D 理解好,这个洞察优雅且可验证
- 中间噪声层最优的发现很有物理直觉:太小噪声不激活去噪推理,太大噪声淹没原始结构;中间层 DiT 特征在空间精度和抽象语境间取得最佳平衡
- Plug-and-play 设计:冻结生成模型,只训练投射器和门控参数,可插入任何 MLLM 框架
- 多视图一致性 → 3D 能力的量化关联提供了选择生成 backbone 的理论依据
局限性 / 可改进方向¶
- Scan2Cap CIDEr 下降暗示几何先验可能与细粒度语言描述存在 trade-off
- 冻结 1.3B 视频模型增加推理开销(需前向传播两个 backbone)
- 空文本 prompt 可能限制了条件生成先验的利用——带有场景描述的 prompt 是否能进一步提升?
- 仅在室内场景(ScanNet)验证,室外/开放世界场景的泛化性待验证
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统验证视频生成模型的隐式 3D 先验并将其用于场景理解
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 3D 理解/空间推理/机器人操作三个轴,消融详实
- 价值: ⭐⭐⭐⭐⭐ "不需要更多 3D 数据,而是释放生成模型中沉睡的物理先验"的思路极具启发性