Omni-View: Unlocking How Generation Facilitates Understanding in Unified 3D Model based on Multiview images¶

会议: ICLR 2026
arXiv: 2511.07222
代码: https://github.com/AIDC-AI/Omni-View
领域: 3D视觉 / 多视图理解
关键词: 统一理解与生成, 3D场景理解, 新视角合成, 空间推理, 多视图

一句话总结¶

构建统一的3D场景理解与生成模型 Omni-View，通过纹理模块（新视角合成）和几何模块（深度/位姿估计）的生成能力增强理解性能，在 VSI-Bench 上达到 55.4 分超越所有现有专用3D理解模型。

研究背景与动机¶

领域现状：统一多模态理解与生成（UMM）在2D领域已取得显著进展（BAGEL、Janus等），但3D场景的统一模型尚属空白。现有3D理解方法（LLaVA-3D、GPT4Scene等）依赖显式3D输入（体素、BEV），限制了实际应用。
现有痛点：(a) 2D UMM 仅探索了"理解促进生成"，反向的"生成促进理解"未被充分验证；(b) 3D理解任务需要几何测量和时空建模能力，但现有模型缺乏获取这些能力的机制；(c) 依赖3D输入的方法在真实场景中难以部署。
核心矛盾：3D场景理解（距离判断、方向推理、外观顺序）本质上需要几何和时空建模能力，但纯理解模型只从语义角度学习，无法获得这些能力。
本文要解决什么？ 通过3D生成任务（几何估计+新视角合成）赋予理解模型几何和时空建模能力，构建首个通用3D场景的统一理解与生成模型。
切入角度：借鉴神经科学证据——人类对3D环境的理解依赖于对未来感觉和几何数据的"生成和想象"能力。这直接论证了"生成促进理解"范式在3D场景中的适用性。
核心idea一句话：用新视角合成学时空建模，用深度/位姿估计学几何测量，两种生成能力协同提升3D理解。

方法详解¶

整体框架¶

基于 BAGEL-7B 构建，分为理解模型和生成模型。生成模型进一步分为纹理模块（flow matching做新视角合成）和几何模块（深度图+相机位姿估计）。两阶段训练：第一阶段联合训练三个组件（生成促进理解），第二阶段冻结理解模型微调生成模块。

关键设计¶

纹理模块（时空建模）:
做什么：从参考图像+目标相机位姿生成新视角
核心思路：使用 FLUX-VAE 编码参考图像，Plucker-Ray 编码相机位姿作为位置编码，flow matching 去噪生成。采用自回归生成——第 \(n\) 帧在生成时看到前 \(n-1\) 帧，迫使模型理解时间序列关系
设计动机：自回归方式获取时空建模能力，对应"外观顺序"等理解任务的核心需求
几何模块（几何测量）:
做什么：从纹理模块的潜在特征估计深度图和相机位姿
核心思路：接收纹理模块的最后一层输出潜在特征，拼接深度噪声和可学习位姿query，通过交叉注意力融合理解模型的中间特征。深度用 flow matching，位姿用 VGGT decoder + Huber loss
设计动机：深度估计帮助模型理解物体间相对位置关系（对应相对距离/方向任务），且梯度可回传到理解模型
Dense-to-Sparse (D2S) 训练策略:
做什么：渐进减少参考图像数量
核心思路：训练初期参考图像包含所有输入（稠密），逐步减少到仅第一帧（稀疏），实现课程式从易到难训练
设计动机：强制模型在信息越来越少的情况下做生成，增强对场景结构的深层理解

损失函数 / 训练策略¶

Stage 1: \(L_{s1} = \lambda_{und} L_{und} + \lambda_{tex} L_{tex} + \lambda_{geo} L_{geo}\)（默认权重 1:1:0.1）。理解损失用 next-token prediction，纹理损失用 MSE（预测噪声vs实际噪声），几何损失用深度 MSE + 位姿 Huber。训练中使用 diffusion forcing 优化3D一致性。Stage 2: 冻结理解模型，RGBDP 联合学习优化生成质量。

实验关键数据¶

主实验¶

VSI-Bench 空间推理（不使用3D输入）：

方法	物体计数	绝对距离	相对距离	外观顺序	平均
SpatialMLLM-4B	65.3	34.8	41.3	46.3	48.4
VG-LLM-4B	66.4	36.6	40.8	39.5	46.1
BAGEL-7B-FT	62.8	36.3	46.1	43.1	46.3
Omni-View-7B	70.3	46.4	65.9	49.0	55.4

新视角合成（Re10k）：PSNR=23.22（超越 Voyager-13B 的 23.12），LPIPS=0.114（大幅领先）。

消融实验¶

配置	VSI-Bench 平均	说明
仅理解模型（BAGEL-FT）	46.3	基线
+纹理模块	~50	时空建模→外观顺序+4.1
+几何模块	~49	几何→相对距离显著提升
+纹理+几何（统一架构）	~52	分开不如分离
+纹理+几何（分离架构）	55.4	分离设计最优
去掉 D2S 策略	下降	课程学习有效
去掉自回归生成	下降	强制时序理解有效

关键发现¶

生成确实促进理解：相对距离从 46.1→65.9（+19.8），绝对距离 36.3→46.4（+10.1），外观顺序 43.1→49.0（+5.9）
纹理和几何模块分别贡献不同能力：纹理→时空建模，几何→空间度量
分离式双模块优于统一架构——避免两种生成目标之间的梯度冲突
不使用3D输入即超越大部分需要3D输入的方法
理解训练数据和生成训练数据完全不重叠——排除了数据记忆效应

亮点与洞察¶

"生成促进理解"的系统验证：在3D场景中首次大规模验证了这一直觉，且用消融实验解毫了纹理模块（时空）和几何模块（度量）各自的贡献
分离式双模块设计：纹理和几何分开处理比统一架构好，回避了多任务梯度冲突——这一经验在其他统一模型设计中也适用
D2S 课程学习：渐进减少参考图像是简单但有效的课程策略，核心逻辑是"信息越少越难→迫使更深理解"
相对距离的巨大提升（+19.8）：这是消融中最dramatic的结果，清晰说明几何估计能力对空间推理的关键作用

局限性 / 可改进方向¶

相机位姿控制精度不足——新视角合成在像素级保真度上仅略优于专用模型
绝对度量（如房间大小、绝对距离）的提升有限——合成深度图缺乏绝对尺度
7B 模型规模，未在更大规模上验证
数据条件受限：ScanNet/Re10k 覆盖的场景类型有限，缺乏户外大场景验证
Stage 2 中几何模块不再依赖理解模型特征——两阶段间的生成能力可能不一致

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个通用3D场景的统一理解与生成模型，"生成促进理解"的系统验证
实验充分度: ⭐⭐⭐⭐⭐ VSI-Bench/SQA3D/ScanQA/ScanRefer/Re10k 多基准+详细消融
写作质量: ⭐⭐⭐⭐ 结构清晰，但部分表述可更凝练
价值: ⭐⭐⭐⭐⭐ 对统一3D理解与生成有开创性贡献，SOTA性能