UniSplat: Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images¶
会议: CVPR 2026
arXiv: 2604.10573
代码: https://bobochow.github.io/UniSplat
领域: 3D视觉
关键词: 3D表示学习, 空间智能, 高斯溅射, 自监督学习, 无位姿多视角
一句话总结¶
UniSplat 通过双掩码策略、粗到细高斯溅射和位姿条件重校准三个组件,从无位姿多视角图像中学习统一的几何-外观-语义 3D 表示,为空间智能奠定感知基础。
研究背景与动机¶
领域现状:3D 表示学习正从监督方法(需要标定位姿)向自监督方法(直接从原始多视角图像学习)发展,但现有自监督方法普遍存在几何感知弱、外观细节不足、几何-语义不一致的问题。
现有痛点:(1) 掩码自编码等方法缺乏严格的全局 3D 一致性;(2) 新视角合成方法假设已知位姿或依赖密集视频;(3) 无位姿方法虽然联合估计相机和场景,但三个维度耦合不够。
核心矛盾:几何、外观和语义各有不同的最优粒度——语义天然粗粒度而外观需要细粒度——直接统一学习会导致互相干扰。
本文目标:设计一个前馈框架,从无位姿稀疏多视角图像中统一学习几何、外观和语义表示。
核心 idea:用三个互补机制分别解决几何感知(双掩码)、外观精度(粗到细溅射)和一致性(位姿重校准)问题。
方法详解¶
整体框架¶
输入无位姿多视角图像 → Transformer 编码器(带双掩码) → 多头解码器 → 粗到细高斯溅射(锚→语义→精细高斯) → 位姿条件重校准 → 输出 3D 表示(点云、法线、语义、外观)。
关键设计¶
-
双掩码策略(Dual Masking):
- 功能:增强编码器的几何感知能力
- 核心思路:Stage 1 用随机掩码遮蔽编码器 token,提取初步特征;Stage 2 用粗高斯场的重要性图生成几何感知掩码,遮蔽结构关键区域的解码器 token。迫使解码器从不完整证据中推理 3D 结构
- 设计动机:随机掩码可能遮蔽不重要区域,而几何引导的掩码专门隐藏结构重要特征,迫使模型学习真正的 3D 推理而非局部纹理补全
-
粗到细高斯溅射策略:
- 功能:渐进式细化辐射场以协调语义和外观的粒度差异
- 核心思路:三级层次结构——锚高斯(位置+几何/语义特征)→ 语义高斯(偏移+粗外观+语义)→ 精细高斯(从 2D 特征图上采样注入高频细节)。语义在较粗层级渲染,外观在最细层级渲染
- 设计动机:语义是粗粒度的(物体级别),外观需要细粒度(纹理级别),分层渲染避免了互相干扰
-
位姿条件重校准机制:
- 功能:强制几何和语义预测之间的跨任务一致性
- 核心思路:利用位姿头估计的相机参数,将 3D 点云头和语义头的预测重投影到 2D 图像平面,与对应的 RGB 和语义预测对齐。通过重投影一致性损失确保几何-语义不矛盾
- 设计动机:传统多任务学习中各头独立运行,无显式机制保证跨任务一致性,重投影提供了自然的对齐信号
损失函数 / 训练策略¶
结合自监督学习和知识蒸馏:新视角合成光度损失、3D 点云蒸馏损失(从 DUSt3R/VGGT)、语义特征蒸馏损失(从 DINOv2/SigLIP)、重投影一致性损失。
实验关键数据¶
主实验¶
| 任务 | 数据集 | 指标 | UniSplat | 之前SOTA |
|---|---|---|---|---|
| 新视角合成 | RealEstate10K | PSNR | 竞争性 | SelfSplat |
| 相机位姿估计 | CO3Dv2 | RTE | 改进 | RayZer |
| 深度估计 | ScanNet | Abs Rel | 改进 | 基线 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| Full model | 最优 | 完整模型 |
| w/o 双掩码 | 下降 | 几何感知能力减弱 |
| w/o 粗到细 | 下降 | 外观-语义不一致加剧 |
| w/o 重校准 | 下降 | 跨任务一致性变差 |
关键发现¶
- 三个组件相互补充,任何一个的缺失都导致性能下降
- 几何引导掩码比随机掩码更有效地增强了 3D 推理能力
- 统一表示在下游任务(导航、操作)上表现出良好泛化
亮点与洞察¶
- 粒度解耦:粗到细策略巧妙地解决了语义和外观的粒度矛盾,这个思路可迁移到其他多任务 3D 学习
- 重投影作为自然对齐:利用估计的位姿做跨头一致性约束,既不需要额外标注又提供了强监督信号
局限与展望¶
- 依赖知识蒸馏的教师模型质量
- 计算开销较大(多头解码器+多层高斯)
- 未来可探索更轻量的架构和更大规模的预训练
相关工作与启发¶
- vs RayZer: RayZer 用隐式渲染器,UniSplat 用显式高斯溅射提供更好的可解释性
- vs SelfSplat: SelfSplat 深度和位姿模块分离,UniSplat 通过重校准实现更紧耦合
评分¶
- 新颖性: ⭐⭐⭐⭐ 三个组件的协同设计有新意但每个单独看并不全新
- 实验充分度: ⭐⭐⭐⭐ 多任务评估全面
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰
- 价值: ⭐⭐⭐⭐ 为空间智能的感知基础提供了实用方案
相关论文¶
- [CVPR 2026] Learning Multi-View Spatial Reasoning from Cross-View Relations
- [CVPR 2026] BRepGaussian: CAD Reconstruction from Multi-View Images with Gaussian Splatting
- [ICCV 2025] Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting
- [NeurIPS 2025] Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
- [ICLR 2026] UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images