跳转至

Omni-View: Unlocking How Generation Facilitates Understanding in Unified 3D Model based on Multiview images

会议: ICLR 2026
arXiv: 2511.07222
代码: https://github.com/AIDC-AI/Omni-View
领域: 3D视觉 / 多视图理解
关键词: 统一理解与生成, 3D场景理解, 新视角合成, 空间推理, 多视图

一句话总结

构建统一的3D场景理解与生成模型 Omni-View,通过纹理模块(新视角合成)和几何模块(深度/位姿估计)的生成能力增强理解性能,在 VSI-Bench 上达到 55.4 分超越所有现有专用3D理解模型。

研究背景与动机

  1. 领域现状:统一多模态理解与生成(UMM)在2D领域已取得显著进展(BAGEL、Janus等),但3D场景的统一模型尚属空白。现有3D理解方法(LLaVA-3D、GPT4Scene等)依赖显式3D输入(体素、BEV),限制了实际应用。
  2. 现有痛点:(a) 2D UMM 仅探索了"理解促进生成",反向的"生成促进理解"未被充分验证;(b) 3D理解任务需要几何测量和时空建模能力,但现有模型缺乏获取这些能力的机制;(c) 依赖3D输入的方法在真实场景中难以部署。
  3. 核心矛盾:3D场景理解(距离判断、方向推理、外观顺序)本质上需要几何和时空建模能力,但纯理解模型只从语义角度学习,无法获得这些能力。
  4. 本文要解决什么? 通过3D生成任务(几何估计+新视角合成)赋予理解模型几何和时空建模能力,构建首个通用3D场景的统一理解与生成模型。
  5. 切入角度:借鉴神经科学证据——人类对3D环境的理解依赖于对未来感觉和几何数据的"生成和想象"能力。这直接论证了"生成促进理解"范式在3D场景中的适用性。
  6. 核心idea一句话:用新视角合成学时空建模,用深度/位姿估计学几何测量,两种生成能力协同提升3D理解。

方法详解

整体框架

基于 BAGEL-7B 构建,分为理解模型和生成模型。生成模型进一步分为纹理模块(flow matching做新视角合成)和几何模块(深度图+相机位姿估计)。两阶段训练:第一阶段联合训练三个组件(生成促进理解),第二阶段冻结理解模型微调生成模块。

关键设计

  1. 纹理模块(时空建模):
  2. 做什么:从参考图像+目标相机位姿生成新视角
  3. 核心思路:使用 FLUX-VAE 编码参考图像,Plucker-Ray 编码相机位姿作为位置编码,flow matching 去噪生成。采用自回归生成——第 \(n\) 帧在生成时看到前 \(n-1\) 帧,迫使模型理解时间序列关系
  4. 设计动机:自回归方式获取时空建模能力,对应"外观顺序"等理解任务的核心需求

  5. 几何模块(几何测量):

  6. 做什么:从纹理模块的潜在特征估计深度图和相机位姿
  7. 核心思路:接收纹理模块的最后一层输出潜在特征,拼接深度噪声和可学习位姿query,通过交叉注意力融合理解模型的中间特征。深度用 flow matching,位姿用 VGGT decoder + Huber loss
  8. 设计动机:深度估计帮助模型理解物体间相对位置关系(对应相对距离/方向任务),且梯度可回传到理解模型

  9. Dense-to-Sparse (D2S) 训练策略:

  10. 做什么:渐进减少参考图像数量
  11. 核心思路:训练初期参考图像包含所有输入(稠密),逐步减少到仅第一帧(稀疏),实现课程式从易到难训练
  12. 设计动机:强制模型在信息越来越少的情况下做生成,增强对场景结构的深层理解

损失函数 / 训练策略

Stage 1: \(L_{s1} = \lambda_{und} L_{und} + \lambda_{tex} L_{tex} + \lambda_{geo} L_{geo}\)(默认权重 1:1:0.1)。理解损失用 next-token prediction,纹理损失用 MSE(预测噪声vs实际噪声),几何损失用深度 MSE + 位姿 Huber。训练中使用 diffusion forcing 优化3D一致性。Stage 2: 冻结理解模型,RGBDP 联合学习优化生成质量。

实验关键数据

主实验

VSI-Bench 空间推理(不使用3D输入):

方法 物体计数 绝对距离 相对距离 外观顺序 平均
SpatialMLLM-4B 65.3 34.8 41.3 46.3 48.4
VG-LLM-4B 66.4 36.6 40.8 39.5 46.1
BAGEL-7B-FT 62.8 36.3 46.1 43.1 46.3
Omni-View-7B 70.3 46.4 65.9 49.0 55.4

新视角合成(Re10k):PSNR=23.22(超越 Voyager-13B 的 23.12),LPIPS=0.114(大幅领先)。

消融实验

配置 VSI-Bench 平均 说明
仅理解模型(BAGEL-FT) 46.3 基线
+纹理模块 ~50 时空建模→外观顺序+4.1
+几何模块 ~49 几何→相对距离显著提升
+纹理+几何(统一架构) ~52 分开不如分离
+纹理+几何(分离架构) 55.4 分离设计最优
去掉 D2S 策略 下降 课程学习有效
去掉自回归生成 下降 强制时序理解有效

关键发现

  • 生成确实促进理解:相对距离从 46.1→65.9(+19.8),绝对距离 36.3→46.4(+10.1),外观顺序 43.1→49.0(+5.9)
  • 纹理和几何模块分别贡献不同能力:纹理→时空建模,几何→空间度量
  • 分离式双模块优于统一架构——避免两种生成目标之间的梯度冲突
  • 不使用3D输入即超越大部分需要3D输入的方法
  • 理解训练数据和生成训练数据完全不重叠——排除了数据记忆效应

亮点与洞察

  • "生成促进理解"的系统验证:在3D场景中首次大规模验证了这一直觉,且用消融实验解毫了纹理模块(时空)和几何模块(度量)各自的贡献
  • 分离式双模块设计:纹理和几何分开处理比统一架构好,回避了多任务梯度冲突——这一经验在其他统一模型设计中也适用
  • D2S 课程学习:渐进减少参考图像是简单但有效的课程策略,核心逻辑是"信息越少越难→迫使更深理解"
  • 相对距离的巨大提升(+19.8):这是消融中最dramatic的结果,清晰说明几何估计能力对空间推理的关键作用

局限性 / 可改进方向

  • 相机位姿控制精度不足——新视角合成在像素级保真度上仅略优于专用模型
  • 绝对度量(如房间大小、绝对距离)的提升有限——合成深度图缺乏绝对尺度
  • 7B 模型规模,未在更大规模上验证
  • 数据条件受限:ScanNet/Re10k 覆盖的场景类型有限,缺乏户外大场景验证
  • Stage 2 中几何模块不再依赖理解模型特征——两阶段间的生成能力可能不一致

相关工作与启发

  • vs LLaVA-3D / GPT4Scene: 它们需要3D输入(体素/BEV),但 Omni-View 仅用多视图图像就能接近或超越其性能(ScanQA CIDEr: 103.0 vs 102.1)
  • vs SpatialMLLM / VG-LLM: 它们用 VGGT 特征嵌入3D先验,Omni-View 通过生成任务内化这种先验,效果更好
  • vs BAGEL: 直接微调 BAGEL baseline 只有 46.3,加入生成模块后达到 55.4(+9.1),证明增益来自生成而非数据
  • 对统一模型的启发:生成和理解不只是两个独立任务——生成过程中获得的能力(时空建模、几何测量)可以直接增强理解

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个通用3D场景的统一理解与生成模型,"生成促进理解"的系统验证
  • 实验充分度: ⭐⭐⭐⭐⭐ VSI-Bench/SQA3D/ScanQA/ScanRefer/Re10k 多基准+详细消融
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,但部分表述可更凝练
  • 价值: ⭐⭐⭐⭐⭐ 对统一3D理解与生成有开创性贡献,SOTA性能