跳转至

Cross-Instance Gaussian Splatting Registration via Geometry-Aware Feature-Guided Alignment

会议: CVPR 2026
arXiv: 2603.21936
代码: https://bgu-cs-vil.github.io/GSA-project (有)
领域: 3D 视觉 / 3D 配准
关键词: 3D Gaussian Splatting, 跨实例配准, 相似变换, 几何感知特征, 逆辐射场

一句话总结

提出 GSA(Gaussian Splatting Alignment),首个实现跨实例类别级 3DGS 模型配准的方法,通过几何感知特征引导的粗配准(扩展 ICP 求解相似变换)和多视角特征一致性的精配准,在同物体和跨物体场景下均大幅超越现有方法。

研究背景与动机

领域现状:3D Gaussian Splatting(3DGS)已成为高保真新视角合成的强力表示。但对齐两个独立 3DGS 模型是一个开放挑战,现有方法如 GaussReg 依赖 ICP,仅能处理同一物体模型的配准。

现有痛点:(1) ICP 在初始化差(如 180° 旋转)时失败;(2) ICP 无法处理未知尺度,需要给定真实尺度;(3) 跨实例(不同物体)配准时几何差异导致最近点匹配收敛到错误对应关系。

核心矛盾:3DGS 模型由 SfM 生成,天然存在任意尺度、位置和朝向差异;不同物体还有形状和外观差异,使得传统几何方法完全失效。

本文要解决:如何在未知尺度下,将两个可能是不同物体(但同类别)的 3DGS 模型做相似变换(旋转+平移+缩放)对齐?

切入角度:(1) 用几何感知的视点引导特征替代纯几何信号做对应关系建立;(2) 将逆辐射场框架从单视角相机位姿估计推广到多视角场域-场域配准。

核心 idea:几何感知语义特征引导的扩展 ICP + 多视角特征场一致性优化 = 鲁棒的跨实例 3DGS 配准。

方法详解

整体框架

分三步:(1) 预处理:用 COLMAP 估计相机位姿,用 Mariotti 等人的方法提取几何感知特征,用 SAM 分割前景;(2) 粗配准:特征引导的迭代绝对定向求解器,估计 Sim(3) 变换;(3) 精配准:多视角特征场一致性优化,进一步提升配准精度。

关键设计

  1. Feature-augmented 3DGS

    • 功能:为每个 Gaussian 增加 3 维几何感知特征 \(\mathbf{f} \in \mathbb{R}^3\),通过将 2D 视点引导球面特征 "lift" 到 3D。
    • 核心思路:训练时联合优化 RGB 损失和特征损失 \(\mathcal{L} = \mathcal{L}_{\text{rgb}} + \lambda_f \mathcal{L}_f\),其中 \(\mathcal{L}_f = \|F - F^r\|_1\)。特征和几何优化解耦:先优化颜色和几何,再固定后优化特征。
    • 设计动机:选用 Mariotti 等人的几何感知特征而非 DINOv2,因为后者缺乏 3D 几何意识,存在空间歧义(如左右对称部分特征相同),不适合配准任务。
  2. Coarse Alignment:特征引导的绝对定向求解器

    • 功能:迭代交替进行三步——(a) 对每个源点,在目标中按特征相似性筛选候选集 \(\mathcal{Q}_i = \{\mathbf{q}_j \mid \|\mathbf{f}_i - \mathbf{f}_j\| \leq \tau_f\}\),再从中选空间最近点;(b) 闭式求解最优 Sim(3) 变换(Kabsch-Umeyama 求旋转+平移,Horn 求尺度);(c) 应用变换。
    • 核心思路\(\min_{T^{(k)} \in \mathbf{Sim(3)}} \sum_i \|T^{(k)}(\mathbf{p}_i^{(k)}) - \mathbf{q}_i^{(k)}\|_2^2\)
    • 设计动机:通过特征约束筛选候选对应关系,同时解决了 ICP 的三大问题:初始化敏感、无法处理未知尺度、跨实例失败。仅需 3-6 次迭代即可收敛。
  3. Fine Alignment:多视角特征场一致性

    • 功能:利用粗配准结果初始化,优化多视角特征渲染一致性损失: \(\mathcal{L}_{\text{MV-FC}} = \sum_{k=1}^N \|\text{Rend}_f(T\mathcal{G}_1, C_k^*) - \text{Rend}_f(\mathcal{G}_2, C_k^*)\|_2^2\)
    • 核心思路:从逆辐射场问题(iNeRF)推广而来——将单视角相机位姿估计 SE(3) 推广至多视角场域配准 Sim(3),并用特征渲染替代颜色渲染以支持跨实例。
    • 设计动机:多视角约束消除了单视角下尺度-深度歧义;特征渲染使得外观不同的跨实例物体也能对齐,因为几何感知特征在同类别物体间具有一致性。

损失函数 / 训练策略

  • 3DGS 构建:\(\mathcal{L} = \mathcal{L}_{\text{rgb}} + \lambda_f \mathcal{L}_f\)\(\lambda_f=1\)\(\alpha=0.2\)
  • 粗配准:迭代最近点+闭式求解,\(\tau_f=0.01\),最多 6 次迭代
  • 精配准:多视角特征一致性,3 个多样化视角,60 次迭代优化,学习率 0.01

实验关键数据

主实验——同物体配准(Objaverse,15 物体)

方法 均需真实尺度? Mean RRE (°) ↓ 说明
FGR 很高 噪声数据下失败
REGTR 很高 假设刚体变换
GaussReg 较高 初始化敏感
GSA (coarse only) SOTA 仅粗配准已超越所有方法
GSA (coarse + fine) 近乎完美 数量级提升

跨实例配准(ShapeNet,6 类别×10 对)

方法 Mean RRE (°) ↓ 说明
FGR 极高 完全失败
REGTR 极高 完全失败
GaussReg 极高 完全失败
GSA 最低 首个有效的跨实例方案

消融实验

配置 RRE 影响 说明
去掉特征引导(纯 ICP) 粗配准 136.29°, 精配准 139.82° 完全失败
用 DINOv2 特征替代 通常完全失败 空间歧义
精配准用颜色渲染替代特征渲染 显著精度下降 跨实例颜色不同
3 相似视角(vs 3 多样化视角) 精度下降 视角多样性重要

关键发现

  • 粗配准阶段已经达到 SOTA;精配准阶段进一步将误差降低到接近完美(同物体)
  • 即使初始化包含 180° 旋转和 10× 尺度差异,GSA 仍能成功对齐
  • 几何感知特征是成功的关键——DINOv2 等替代方案在配准任务中完全失败

亮点与洞察

  • 首创类别级 3DGS 配准:填补了跨实例对齐的空白,开启了物体替换、同步新视角合成等新应用
  • 优雅的理论推导:从 iNeRF 到场域-场域配准的推广过程逻辑严密,从 SE(3) 到 Sim(3)、单视角到多视角、颜色到特征的逐步扩展
  • 实用性强:粗配准 3 次迭代+精配准 60 次迭代即可完成,效率可接受

局限与展望

  • 性能依赖于几何感知特征的质量,若特征不佳则对齐精度下降
  • 仅在物体级别验证,场景级别(多物体复杂场景)的扩展未探索
  • 精配准中多视角选择策略可进一步自动化(目前使用预定义视角)

相关工作与启发

  • 与 GaussReg 的对比凸显了特征引导的重要性
  • 逆辐射场框架(iNeRF、iComMa)到配准的推广思路有普遍意义
  • 几何感知特征(Mariotti et al.)的选择对配准至关重要,这为 3D 特征学习提供了新应用场景

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首创跨实例 3DGS 配准,理论推导优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ 合成+真实数据,同物体+跨实例,完整消融
  • 写作质量: ⭐⭐⭐⭐⭐ 推导清晰,层层递进,可读性强
  • 价值: ⭐⭐⭐⭐⭐ 开创性工作,解锁新应用方向

相关论文