VEGA-3D: Generation Models Know Space — Unleashing Implicit 3D Priors for Scene Understanding¶

日期: 2026-03-20
arXiv: 2603.19235
代码: VEGA-3D
领域: 3D视觉 / 多模态VLM
关键词: video generation priors, 3D scene understanding, spatial reasoning, latent world simulator, gated fusion

一句话总结¶

提出 VEGA-3D，将冻结的视频生成模型（Wan2.1）作为"隐式世界模拟器"，通过噪声注入激活其中间层的 3D 几何先验，经 token 级自适应门控融合注入 MLLM 的语义流中，无需任何显式 3D 标注即可在 ScanRefer/SQA3D/VSI-Bench/LIBERO 上超越依赖 3D 监督的 SOTA。

研究背景与动机¶

领域现状: MLLM 在语义理解上表现出色，但存在严重的"空间盲区"——在细粒度几何推理和物理动态理解上能力不足。现有解决方案要么依赖显式 3D 输入（点云、深度），要么需要复杂的几何支架（2D-to-3D lifting）。
现有痛点: 显式 3D 方法受限于 3D 数据稀缺和泛化困难；几何支架方法需要复杂多阶段训练和任务特定标注（深度、相机位姿）。标准 MLLM 的训练损失在词汇空间计算，"left" vs "right" 的空间错误被当作普通 token 不匹配，缺乏几何度量约束。
核心矛盾: 3D 理解需要几何先验，但获取 3D 标注成本极高。能否找到一个已经隐式学会了 3D 几何的模型？
切入角度: 视频生成模型为了生成时间一致的视频，必须隐式学习 3D 结构先验——遮挡需要物体持久性，相机运动揭示深度依赖的视差，交互必须遵循一致的动力学。实验证实 DiT 架构的视频模型多视图一致性 >96%，且与下游 3D 性能强正相关。
核心 idea: 将视频扩散模型重新定义为"潜在世界模拟器"，提取其中间层特征作为 3D 几何先验，与语义编码器互补融合。

方法详解¶

整体框架¶

双分支视觉编码：语义分支（SigLIP）提供高层语义 + 生成分支（冻结 Wan2.1-T2V 1.3B）提供 3D 几何先验 → token 级自适应门控融合 → 注入 MLLM 解码器。

关键设计¶

多视图一致性分析与模型选择:
- 做什么：定义 Multi-view Correspondence Score，将 3D 场景不同视角的编码器特征投射到全局体素网格，计算同一体素在不同视角间的余弦相似度
- 发现：DiT 架构视频模型（如 Wan2.1）一致性 >96%，远超 UNet 架构（SVD、SD）；且该分数与下游 3D 性能强正相关
- 设计动机：全局注意力机制比局部卷积更擅长捕获长程几何依赖
潜在世界模拟器（Latent World Simulator）:
- 做什么：对输入视频的 clean latent 注入噪声激活生成模型的 3D 推理能力
- 核心思路：将视频经 VAE 编码为 \(\mathbf{z}_0\)，按 Flow Matching 路径加噪 \(\mathbf{z}_k = (1-t_k)\mathbf{z}_0 + t_k\epsilon\)，用空文本 prompt 送入冻结 DiT，提取第 \(l\) 层中间特征 \(\mathbf{f}_{\text{raw}} = \Phi^{(l)}(\mathbf{z}_k, k; \mathbf{c}_{\text{text}}=\text{""})\)
- 设计动机：扩散模型在主动去噪过程中才真正激活结构理解能力；空文本确保特征仅依赖视觉信号和学到的物理规律，避免语义幻觉
- 最佳配置：\(k=300\)（中等噪声水平），第 20 层 DiT
自适应门控融合:
- 做什么：通过 token 级门控将生成特征和语义特征动态融合
- 核心思路：两路特征各经 MLP 投射到 LLM 维度后，对每个 token 计算标量门 \(g_i = \sigma(\mathbf{W}_g^\top \text{Concat}(\text{LN}(\mathbf{F}_{\text{gen},i}), \text{LN}(\mathbf{F}_{\text{sem},i})) + b_g)\)，最终 \(\mathbf{F}_i = g_i \cdot \mathbf{F}_{\text{gen},i} + (1-g_i) \cdot \mathbf{F}_{\text{sem},i}\)
- 设计动机：不同区域对语义/几何先验的需求不同——文字区域需要语义、定位区域需要几何，per-token gating 实现自适应平衡

实验关键数据¶

3D 场景理解¶

方法	ScanRefer Acc@0.5	SQA3D EM	Scan2Cap C@0.5	说明
Video-3D LLM (baseline)	51.7	58.6	102.1	无生成先验
VEGA-3D	56.2 (+4.5)	61.3 (+2.7)	106.3	无需3D标注
3DRS (NeurIPS 25, 需3D teacher)	56.1	60.6	104.8	依赖显式3D监督

空间推理 (VSI-Bench)¶

方法	Avg.	Abs. Dist.	Rel. Dir.
Qwen2.5VL-7B (baseline)	48.9	37.0	39.7
VEGA-3D	50.5	35.9	45.1
VG-LLM-8B (专用空间模型)	50.1	38.0	47.0

机器人操作 (LIBERO)¶

方法	Avg. SR	Long-horizon
OpenVLA-OFT (baseline)	97.0	94.4
VEGA-3D	97.3	95.2

消融实验¶

配置	ScanRefer Acc@0.5	SQA3D EM
无噪声 (k=0)	~54	~59
中噪声 (k=300, 最优)	56.2	61.3
高噪声 (k=800)	~53	~59
DiT Layer 10	~54	~60
DiT Layer 20 (最优)	56.2	61.3
DiT Layer 30	~55	~60

亮点与洞察¶

范式创新：将视频生成模型从"内容生成工具"重新定义为"3D 几何先验提取器"——生成质量好 = 隐式 3D 理解好，这个洞察优雅且可验证
中间噪声层最优的发现很有物理直觉：太小噪声不激活去噪推理，太大噪声淹没原始结构；中间层 DiT 特征在空间精度和抽象语境间取得最佳平衡
Plug-and-play 设计：冻结生成模型，只训练投射器和门控参数，可插入任何 MLLM 框架
多视图一致性 → 3D 能力的量化关联提供了选择生成 backbone 的理论依据

局限性 / 可改进方向¶

Scan2Cap CIDEr 下降暗示几何先验可能与细粒度语言描述存在 trade-off
冻结 1.3B 视频模型增加推理开销（需前向传播两个 backbone）
空文本 prompt 可能限制了条件生成先验的利用——带有场景描述的 prompt 是否能进一步提升？
仅在室内场景（ScanNet）验证，室外/开放世界场景的泛化性待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统验证视频生成模型的隐式 3D 先验并将其用于场景理解
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 3D 理解/空间推理/机器人操作三个轴，消融详实
价值: ⭐⭐⭐⭐⭐ "不需要更多 3D 数据，而是释放生成模型中沉睡的物理先验"的思路极具启发性