UniSplat: Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images¶

会议: CVPR 2026
arXiv: 2604.10573
代码: https://bobochow.github.io/UniSplat
领域: 3D视觉
关键词: 3D表示学习, 空间智能, 高斯溅射, 自监督学习, 无位姿多视角

一句话总结¶

UniSplat 通过双掩码策略、粗到细高斯溅射和位姿条件重校准三个组件，从无位姿多视角图像中学习统一的几何-外观-语义 3D 表示，为空间智能奠定感知基础。

领域现状：3D 表示学习正从监督方法（需要标定位姿）向自监督方法（直接从原始多视角图像学习）发展，但现有自监督方法普遍存在几何感知弱、外观细节不足、几何-语义不一致的问题。

现有痛点：(1) 掩码自编码等方法缺乏严格的全局 3D 一致性；(2) 新视角合成方法假设已知位姿或依赖密集视频；(3) 无位姿方法虽然联合估计相机和场景，但三个维度耦合不够。

核心矛盾：几何、外观和语义各有不同的最优粒度——语义天然粗粒度而外观需要细粒度——直接统一学习会导致互相干扰。

本文目标：设计一个前馈框架，从无位姿稀疏多视角图像中统一学习几何、外观和语义表示。

核心 idea：用三个互补机制分别解决几何感知（双掩码）、外观精度（粗到细溅射）和一致性（位姿重校准）问题。

输入无位姿多视角图像 → Transformer 编码器（带双掩码） → 多头解码器 → 粗到细高斯溅射（锚→语义→精细高斯） → 位姿条件重校准 → 输出 3D 表示（点云、法线、语义、外观）。

双掩码策略（Dual Masking）:
- 功能：增强编码器的几何感知能力
- 核心思路：Stage 1 用随机掩码遮蔽编码器 token，提取初步特征；Stage 2 用粗高斯场的重要性图生成几何感知掩码，遮蔽结构关键区域的解码器 token。迫使解码器从不完整证据中推理 3D 结构
- 设计动机：随机掩码可能遮蔽不重要区域，而几何引导的掩码专门隐藏结构重要特征，迫使模型学习真正的 3D 推理而非局部纹理补全
粗到细高斯溅射策略:
- 功能：渐进式细化辐射场以协调语义和外观的粒度差异
- 核心思路：三级层次结构——锚高斯（位置+几何/语义特征）→ 语义高斯（偏移+粗外观+语义）→ 精细高斯（从 2D 特征图上采样注入高频细节）。语义在较粗层级渲染，外观在最细层级渲染
- 设计动机：语义是粗粒度的（物体级别），外观需要细粒度（纹理级别），分层渲染避免了互相干扰
位姿条件重校准机制:
- 功能：强制几何和语义预测之间的跨任务一致性
- 核心思路：利用位姿头估计的相机参数，将 3D 点云头和语义头的预测重投影到 2D 图像平面，与对应的 RGB 和语义预测对齐。通过重投影一致性损失确保几何-语义不矛盾
- 设计动机：传统多任务学习中各头独立运行，无显式机制保证跨任务一致性，重投影提供了自然的对齐信号

结合自监督学习和知识蒸馏：新视角合成光度损失、3D 点云蒸馏损失（从 DUSt3R/VGGT）、语义特征蒸馏损失（从 DINOv2/SigLIP）、重投影一致性损失。

任务	数据集	指标	UniSplat	之前SOTA
新视角合成	RealEstate10K	PSNR	竞争性	SelfSplat
相机位姿估计	CO3Dv2	RTE	改进	RayZer
深度估计	ScanNet	Abs Rel	改进	基线