跳转至

VEGA-3D: Generation Models Know Space — Unleashing Implicit 3D Priors for Scene Understanding

日期: 2026-03-19
arXiv: 2603.19235
代码: GitHub
领域: 3D视觉 / 多模态VLM
关键词: 视频生成模型, 3D场景理解, 隐式3D先验, 多模态融合, 空间推理

一句话总结

将预训练视频生成模型(如 Wan2.1)作为"潜在世界模拟器",通过噪声注入激活其隐式3D先验,并用 token 级自适应门控融合机制将几何特征与语义特征结合,无需显式3D标注即可大幅提升 MLLM 的3D场景理解和空间推理能力。

研究背景与动机

  1. 领域现状: 多模态大语言模型(MLLM)在语义理解上表现出色,但面对需要精细几何推理的3D场景理解任务时,存在严重的"空间盲区"——无法准确判断物体的空间关系、距离和方向。

  2. 现有痛点: 现有解决方案主要有两条路线:(a) 直接使用显式3D数据(点云、深度图),但高质量3D数据稀缺且泛化差;(b) 通过几何脚手架将2D特征提升到3D空间,但需要复杂的多阶段训练、额外的几何标注或3D教师模型蒸馏。

  3. 核心矛盾: 获取大规模高质量3D标注成本极高,而纯2D语义编码器缺乏几何一致性,两者之间存在根本性的数据瓶颈矛盾。

  4. 本文切入角度: 视频生成模型(如 Sora、Wan)为了生成时间上连贯的视频,必须隐式学习到遮挡关系、深度运动、3D结构一致性等物理规律——这些"免费"的3D先验从未被用于下游理解任务。

  5. 核心假设: 视频生成模型的中间层特征编码了丰富的几何信息,可以作为"潜在世界模拟器"补充语义编码器的空间感知能力。

  6. 核心 idea: 冻结预训练视频扩散模型,通过噪声注入激活其去噪过程中的3D感知特征,然后用自适应门控融合与语义特征结合——即插即用,零3D标注。

方法详解

整体框架

VEGA-3D 是一个即插即用的双分支视觉编码框架:语义分支(SigLIP)提供高层语义特征,生成分支(冻结的 Wan2.1 视频扩散模型)提供3D几何先验。两个分支的特征通过 token 级自适应门控融合后输入 LLM。

输入 → 语义编码器(SigLIP)→ 语义特征 \(\mathbf{F}_{\text{sem}}\) 输入 → VAE 编码 → 噪声注入 → 冻结 DiT 中间层 → 生成特征 \(\mathbf{F}_{\text{gen}}\) → 自适应门控融合 → 融合特征 → LLM → 输出

关键设计

  1. 多视图一致性分析(3D Awareness Metric):

    • 做什么:定量评估不同视觉编码器的3D感知能力
    • 核心思路:定义 Multi-view Correspondence Score,将不同视图的特征投影到共享体素网格,用余弦相似度衡量同一3D点在不同视角下特征的一致性 \(S_{\text{voxel}}^{(m)} = \frac{\mathbf{h}_{m,v_i}^\top \mathbf{h}_{m,v_j}}{\|\mathbf{h}_{m,v_i}\| \|\mathbf{h}_{m,v_j}\|}\)
    • 关键发现:DiT 架构(Wan2.1)的一致性得分 >96%,远超 UNet 架构(SVD、SD);且该得分与下游3D理解性能呈强正相关。这为选择生成模型架构提供了理论依据。
  2. 潜在世界模拟器(Latent World Simulator):

    • 做什么:从冻结的视频扩散模型中提取隐式3D先验特征
    • 核心思路:将输入视频通过 VAE 编码为 latent \(\mathbf{z}_0\),然后按 Flow Matching 路径注入噪声得到 \(\mathbf{z}_k = (1-t_k)\mathbf{z}_0 + t_k \epsilon\),送入冻结 DiT 用空文本提示前向传播,从第 \(l\) 层中间层提取特征
    • 设计动机:扩散模型在"去噪"过程中才真正激活其对3D结构的理解——直接用 \(\mathbf{z}_0\) 的特征信息不够丰富。实验发现 \(k=300\)\(t_k=0.3\),中等噪声)和第20层 DiT 特征效果最优——太少的噪声不足以激活模型,太多则淹没了有用信号
    • 巧妙之处:用空文本提示确保特征纯粹依赖视觉信号和学到的物理规律,避免语义幻觉
  3. 自适应门控融合(Adaptive Gated Fusion):

    • 做什么:动态融合语义特征和生成特征
    • 核心思路:先通过独立 MLP 将两个流投影到 LLM 的隐藏维度,然后对每个 token 位置计算标量门控值 \(g_i = \sigma(\mathbf{W}_g^\top \text{Concat}(\text{LN}(\mathbf{F}_{\text{gen},i}), \text{LN}(\mathbf{F}_{\text{sem},i})) + b_g)\),最终融合为 \(\mathbf{F}_i^{\text{fused}} = (1-g_i) \cdot \mathbf{F}_{\text{gen},i} + g_i \cdot \mathbf{F}_{\text{sem},i}\)
    • 设计动机:简单平均会让冲突的语义和几何信号互相干扰。门控机制让模型在需要定位时侧重几何先验,在需要识别时侧重语义特征——实现 token 级的动态权衡

训练策略

  • 生成模型完全冻结,只训练 MLP 投影器、门控参数和 LLM
  • 均匀采样 32 帧构建多视图输入
  • Adam 优化器,LLM lr=1e-5,视觉 backbone lr=2e-6
  • 8 × H100 GPU

实验关键数据

3D 场景理解主实验

基准 指标 VEGA-3D Video-3D LLM (baseline) 提升
ScanRefer Acc@0.25 63.2 58.1 +5.1
ScanRefer Acc@0.5 56.2 51.7 +4.5
Multi3DRefer F1@0.25 60.8 58.0 +2.8
SQA3D EM 61.3 58.6 +2.7
ScanQA CIDEr 106.3 102.1 +4.2

平均排名 1.8,超越依赖显式3D监督的 3DRS(排名2.2)和 LLaVA-4D(排名2.8)。

空间推理(VSI-Bench)

模型 平均分 相对距离 相对方向 路线规划
VEGA-3D 50.5 60.8 45.1 43.1
Qwen2.5VL-7B (baseline) 48.9 58.7 39.7 43.0
VG-LLM-8B 50.1 63.2 47.0 43.9

机器人操作(LIBERO)

模型 Spatial Object Goal Long 平均
VEGA-3D 97.4 99.4 97.0 95.2 97.3
OpenVLA-OFT (baseline) 97.5 98.3 97.8 94.4 97.0

消融实验

配置 ScanRefer Acc@0.5 说明
完整 VEGA-3D 56.2 DiT Wan2.1 + 门控融合
无噪声注入 (\(k=0\)) ~52 直接用 clean latent,效果显著下降
UNet 生成模型 ~48 SVD/SD 等 UNet 架构一致性差
无门控(简单拼接) ~54 缺少动态权衡
最优噪声 \(k=300\) 56.2 中等噪声最优
DiT 第20层 56.2 中间层比首层/末层都好

关键发现

  • DiT 架构 >> UNet 架构:全局注意力机制捕获长程几何依赖
  • 中等噪声(\(k=300\))最优:太少不激活3D推理,太多淹没信号
  • 中间层(第20层)最优:浅层太局部,深层太抽象
  • 生成先验对定位类任务提升最大(ScanRefer +4.5),对描述类任务提升较小(Scan2Cap CIDEr 略降)——语义-几何权衡

亮点与洞察

  • 范式创新:首次系统性地将视频生成模型的隐式3D先验用于下游理解任务,而非传统的"显式3D输入"或"几何蒸馏"路线。这是一个 scalable 的范式——视频生成模型进步,下游3D理解自动受益。
  • 噪声注入激活机制:通过给 clean latent 加中等噪声来"激活"扩散模型的去噪推理能力,这个思路可以迁移到其他需要利用扩散模型中间表示的任务。
  • 即插即用设计:生成分支完全冻结,只需训练轻量投影器和门控,可以无缝集成到各种 MLLM(Video-3D LLM、Qwen2.5VL、OpenVLA-OFT)。
  • 定量验证3D先验:Multi-view Correspondence Score 提供了一个清晰的指标来评估模型的几何一致性,并证明了与下游性能的强相关性。

局限性 / 可改进方向

  • 计算开销:额外的视频扩散模型前向传播增加了推理时间和显存占用,1.3B 参数的 DiT 在实时应用中可能是瓶颈
  • Scan2Cap CIDEr 轻微下降:说明几何先验和语义细节之间的权衡尚未完美解决,门控机制可能需要更精细的任务自适应
  • 单一噪声水平:固定 \(k=300\) 可能不是所有场景的最优选择,自适应噪声调度可能进一步提升性能
  • 视频生成模型限制:当前只用了 Wan2.1 1.3B,更大规模的模型(如 14B)或更先进的架构是否能带来更大提升?

相关工作与启发

  • vs 3DRS (NeurIPS 2025): 3DRS 依赖3D backbone 蒸馏的显式几何监督,VEGA-3D 用零3D标注的隐式先验达到相当甚至更好的效果,范式更 scalable
  • vs Video-3D LLM (CVPR 2025): 作为 baseline,Video-3D LLM 将视频帧映射到3D位置,但缺乏真正的几何感知。VEGA-3D 的生成先验提供了 Video-3D LLM 缺少的空间锚点
  • vs VG-LLM: VG-LLM 在 VSI-Bench 上用 8B 模型达到 50.1,VEGA-3D 用 7B 即达 50.5,说明生成先验是一种高效的空间增强手段

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统性地将视频生成模型的隐式3D先验用于3D理解,范式层面的创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖3D场景理解、空间推理、机器人操作三个轴,消融全面
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表丰富,动机链条完整
  • 价值: ⭐⭐⭐⭐⭐ 提出了 scalable 的新范式,即插即用设计实用性强,对社区有重要启发