跳转至

UniSplat: Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images

会议: CVPR 2026
arXiv: 2604.10573
代码: https://bobochow.github.io/UniSplat
领域: 3D视觉
关键词: 3D表示学习, 空间智能, 高斯溅射, 自监督学习, 无位姿多视角

一句话总结

UniSplat 通过双掩码策略、粗到细高斯溅射和位姿条件重校准三个组件,从无位姿多视角图像中学习统一的几何-外观-语义 3D 表示,为空间智能奠定感知基础。

研究背景与动机

领域现状:3D 表示学习正从监督方法(需要标定位姿)向自监督方法(直接从原始多视角图像学习)发展,但现有自监督方法普遍存在几何感知弱、外观细节不足、几何-语义不一致的问题。

现有痛点:(1) 掩码自编码等方法缺乏严格的全局 3D 一致性;(2) 新视角合成方法假设已知位姿或依赖密集视频;(3) 无位姿方法虽然联合估计相机和场景,但三个维度耦合不够。

核心矛盾:几何、外观和语义各有不同的最优粒度——语义天然粗粒度而外观需要细粒度——直接统一学习会导致互相干扰。

本文目标:设计一个前馈框架,从无位姿稀疏多视角图像中统一学习几何、外观和语义表示。

核心 idea:用三个互补机制分别解决几何感知(双掩码)、外观精度(粗到细溅射)和一致性(位姿重校准)问题。

方法详解

整体框架

输入无位姿多视角图像 → Transformer 编码器(带双掩码) → 多头解码器 → 粗到细高斯溅射(锚→语义→精细高斯) → 位姿条件重校准 → 输出 3D 表示(点云、法线、语义、外观)。

关键设计

  1. 双掩码策略(Dual Masking):

    • 功能:增强编码器的几何感知能力
    • 核心思路:Stage 1 用随机掩码遮蔽编码器 token,提取初步特征;Stage 2 用粗高斯场的重要性图生成几何感知掩码,遮蔽结构关键区域的解码器 token。迫使解码器从不完整证据中推理 3D 结构
    • 设计动机:随机掩码可能遮蔽不重要区域,而几何引导的掩码专门隐藏结构重要特征,迫使模型学习真正的 3D 推理而非局部纹理补全
  2. 粗到细高斯溅射策略:

    • 功能:渐进式细化辐射场以协调语义和外观的粒度差异
    • 核心思路:三级层次结构——锚高斯(位置+几何/语义特征)→ 语义高斯(偏移+粗外观+语义)→ 精细高斯(从 2D 特征图上采样注入高频细节)。语义在较粗层级渲染,外观在最细层级渲染
    • 设计动机:语义是粗粒度的(物体级别),外观需要细粒度(纹理级别),分层渲染避免了互相干扰
  3. 位姿条件重校准机制:

    • 功能:强制几何和语义预测之间的跨任务一致性
    • 核心思路:利用位姿头估计的相机参数,将 3D 点云头和语义头的预测重投影到 2D 图像平面,与对应的 RGB 和语义预测对齐。通过重投影一致性损失确保几何-语义不矛盾
    • 设计动机:传统多任务学习中各头独立运行,无显式机制保证跨任务一致性,重投影提供了自然的对齐信号

损失函数 / 训练策略

结合自监督学习和知识蒸馏:新视角合成光度损失、3D 点云蒸馏损失(从 DUSt3R/VGGT)、语义特征蒸馏损失(从 DINOv2/SigLIP)、重投影一致性损失。

实验关键数据

主实验

任务 数据集 指标 UniSplat 之前SOTA
新视角合成 RealEstate10K PSNR 竞争性 SelfSplat
相机位姿估计 CO3Dv2 RTE 改进 RayZer
深度估计 ScanNet Abs Rel 改进 基线

消融实验

配置 关键指标 说明
Full model 最优 完整模型
w/o 双掩码 下降 几何感知能力减弱
w/o 粗到细 下降 外观-语义不一致加剧
w/o 重校准 下降 跨任务一致性变差

关键发现

  • 三个组件相互补充,任何一个的缺失都导致性能下降
  • 几何引导掩码比随机掩码更有效地增强了 3D 推理能力
  • 统一表示在下游任务(导航、操作)上表现出良好泛化

亮点与洞察

  • 粒度解耦:粗到细策略巧妙地解决了语义和外观的粒度矛盾,这个思路可迁移到其他多任务 3D 学习
  • 重投影作为自然对齐:利用估计的位姿做跨头一致性约束,既不需要额外标注又提供了强监督信号

局限与展望

  • 依赖知识蒸馏的教师模型质量
  • 计算开销较大(多头解码器+多层高斯)
  • 未来可探索更轻量的架构和更大规模的预训练

相关工作与启发

  • vs RayZer: RayZer 用隐式渲染器,UniSplat 用显式高斯溅射提供更好的可解释性
  • vs SelfSplat: SelfSplat 深度和位姿模块分离,UniSplat 通过重校准实现更紧耦合

评分

  • 新颖性: ⭐⭐⭐⭐ 三个组件的协同设计有新意但每个单独看并不全新
  • 实验充分度: ⭐⭐⭐⭐ 多任务评估全面
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰
  • 价值: ⭐⭐⭐⭐ 为空间智能的感知基础提供了实用方案

相关论文