Cross-Instance Gaussian Splatting Registration via Geometry-Aware Feature-Guided Alignment¶
会议: CVPR 2026
arXiv: 2603.21936
代码: https://bgu-cs-vil.github.io/GSA-project (有)
领域: 3D 视觉 / 3D 配准
关键词: 3D Gaussian Splatting, 跨实例配准, 相似变换, 几何感知特征, 逆辐射场
一句话总结¶
提出 GSA(Gaussian Splatting Alignment),首个实现跨实例类别级 3DGS 模型配准的方法,通过几何感知特征引导的粗配准(扩展 ICP 求解相似变换)和多视角特征一致性的精配准,在同物体和跨物体场景下均大幅超越现有方法。
研究背景与动机¶
领域现状:3D Gaussian Splatting(3DGS)已成为高保真新视角合成的强力表示。但对齐两个独立 3DGS 模型是一个开放挑战,现有方法如 GaussReg 依赖 ICP,仅能处理同一物体模型的配准。
现有痛点:(1) ICP 在初始化差(如 180° 旋转)时失败;(2) ICP 无法处理未知尺度,需要给定真实尺度;(3) 跨实例(不同物体)配准时几何差异导致最近点匹配收敛到错误对应关系。
核心矛盾:3DGS 模型由 SfM 生成,天然存在任意尺度、位置和朝向差异;不同物体还有形状和外观差异,使得传统几何方法完全失效。
本文要解决:如何在未知尺度下,将两个可能是不同物体(但同类别)的 3DGS 模型做相似变换(旋转+平移+缩放)对齐?
切入角度:(1) 用几何感知的视点引导特征替代纯几何信号做对应关系建立;(2) 将逆辐射场框架从单视角相机位姿估计推广到多视角场域-场域配准。
核心 idea:几何感知语义特征引导的扩展 ICP + 多视角特征场一致性优化 = 鲁棒的跨实例 3DGS 配准。
方法详解¶
整体框架¶
分三步:(1) 预处理:用 COLMAP 估计相机位姿,用 Mariotti 等人的方法提取几何感知特征,用 SAM 分割前景;(2) 粗配准:特征引导的迭代绝对定向求解器,估计 Sim(3) 变换;(3) 精配准:多视角特征场一致性优化,进一步提升配准精度。
关键设计¶
-
Feature-augmented 3DGS:
- 功能:为每个 Gaussian 增加 3 维几何感知特征 \(\mathbf{f} \in \mathbb{R}^3\),通过将 2D 视点引导球面特征 "lift" 到 3D。
- 核心思路:训练时联合优化 RGB 损失和特征损失 \(\mathcal{L} = \mathcal{L}_{\text{rgb}} + \lambda_f \mathcal{L}_f\),其中 \(\mathcal{L}_f = \|F - F^r\|_1\)。特征和几何优化解耦:先优化颜色和几何,再固定后优化特征。
- 设计动机:选用 Mariotti 等人的几何感知特征而非 DINOv2,因为后者缺乏 3D 几何意识,存在空间歧义(如左右对称部分特征相同),不适合配准任务。
-
Coarse Alignment:特征引导的绝对定向求解器:
- 功能:迭代交替进行三步——(a) 对每个源点,在目标中按特征相似性筛选候选集 \(\mathcal{Q}_i = \{\mathbf{q}_j \mid \|\mathbf{f}_i - \mathbf{f}_j\| \leq \tau_f\}\),再从中选空间最近点;(b) 闭式求解最优 Sim(3) 变换(Kabsch-Umeyama 求旋转+平移,Horn 求尺度);(c) 应用变换。
- 核心思路:\(\min_{T^{(k)} \in \mathbf{Sim(3)}} \sum_i \|T^{(k)}(\mathbf{p}_i^{(k)}) - \mathbf{q}_i^{(k)}\|_2^2\)
- 设计动机:通过特征约束筛选候选对应关系,同时解决了 ICP 的三大问题:初始化敏感、无法处理未知尺度、跨实例失败。仅需 3-6 次迭代即可收敛。
-
Fine Alignment:多视角特征场一致性:
- 功能:利用粗配准结果初始化,优化多视角特征渲染一致性损失: \(\mathcal{L}_{\text{MV-FC}} = \sum_{k=1}^N \|\text{Rend}_f(T\mathcal{G}_1, C_k^*) - \text{Rend}_f(\mathcal{G}_2, C_k^*)\|_2^2\)
- 核心思路:从逆辐射场问题(iNeRF)推广而来——将单视角相机位姿估计 SE(3) 推广至多视角场域配准 Sim(3),并用特征渲染替代颜色渲染以支持跨实例。
- 设计动机:多视角约束消除了单视角下尺度-深度歧义;特征渲染使得外观不同的跨实例物体也能对齐,因为几何感知特征在同类别物体间具有一致性。
损失函数 / 训练策略¶
- 3DGS 构建:\(\mathcal{L} = \mathcal{L}_{\text{rgb}} + \lambda_f \mathcal{L}_f\),\(\lambda_f=1\),\(\alpha=0.2\)
- 粗配准:迭代最近点+闭式求解,\(\tau_f=0.01\),最多 6 次迭代
- 精配准:多视角特征一致性,3 个多样化视角,60 次迭代优化,学习率 0.01
实验关键数据¶
主实验——同物体配准(Objaverse,15 物体)¶
| 方法 | 均需真实尺度? | Mean RRE (°) ↓ | 说明 |
|---|---|---|---|
| FGR | 是 | 很高 | 噪声数据下失败 |
| REGTR | 是 | 很高 | 假设刚体变换 |
| GaussReg | 是 | 较高 | 初始化敏感 |
| GSA (coarse only) | 否 | SOTA | 仅粗配准已超越所有方法 |
| GSA (coarse + fine) | 否 | 近乎完美 | 数量级提升 |
跨实例配准(ShapeNet,6 类别×10 对)¶
| 方法 | Mean RRE (°) ↓ | 说明 |
|---|---|---|
| FGR | 极高 | 完全失败 |
| REGTR | 极高 | 完全失败 |
| GaussReg | 极高 | 完全失败 |
| GSA | 最低 | 首个有效的跨实例方案 |
消融实验¶
| 配置 | RRE 影响 | 说明 |
|---|---|---|
| 去掉特征引导(纯 ICP) | 粗配准 136.29°, 精配准 139.82° | 完全失败 |
| 用 DINOv2 特征替代 | 通常完全失败 | 空间歧义 |
| 精配准用颜色渲染替代特征渲染 | 显著精度下降 | 跨实例颜色不同 |
| 3 相似视角(vs 3 多样化视角) | 精度下降 | 视角多样性重要 |
关键发现¶
- 粗配准阶段已经达到 SOTA;精配准阶段进一步将误差降低到接近完美(同物体)
- 即使初始化包含 180° 旋转和 10× 尺度差异,GSA 仍能成功对齐
- 几何感知特征是成功的关键——DINOv2 等替代方案在配准任务中完全失败
亮点与洞察¶
- 首创类别级 3DGS 配准:填补了跨实例对齐的空白,开启了物体替换、同步新视角合成等新应用
- 优雅的理论推导:从 iNeRF 到场域-场域配准的推广过程逻辑严密,从 SE(3) 到 Sim(3)、单视角到多视角、颜色到特征的逐步扩展
- 实用性强:粗配准 3 次迭代+精配准 60 次迭代即可完成,效率可接受
局限与展望¶
- 性能依赖于几何感知特征的质量,若特征不佳则对齐精度下降
- 仅在物体级别验证,场景级别(多物体复杂场景)的扩展未探索
- 精配准中多视角选择策略可进一步自动化(目前使用预定义视角)
相关工作与启发¶
- 与 GaussReg 的对比凸显了特征引导的重要性
- 逆辐射场框架(iNeRF、iComMa)到配准的推广思路有普遍意义
- 几何感知特征(Mariotti et al.)的选择对配准至关重要,这为 3D 特征学习提供了新应用场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首创跨实例 3DGS 配准,理论推导优雅
- 实验充分度: ⭐⭐⭐⭐⭐ 合成+真实数据,同物体+跨实例,完整消融
- 写作质量: ⭐⭐⭐⭐⭐ 推导清晰,层层递进,可读性强
- 价值: ⭐⭐⭐⭐⭐ 开创性工作,解锁新应用方向
相关论文¶
- [CVPR 2026] NG-GS: NeRF-Guided 3D Gaussian Splatting Segmentation
- [CVPR 2026] CMHANet: A Cross-Modal Hybrid Attention Network for Point Cloud Registration
- [CVPR 2026] ExtrinSplat: Decoupling Geometry and Semantics for Open-Vocabulary Understanding in 3D Gaussian Splatting
- [CVPR 2026] PointINS: Instance-Aware Self-Supervised Learning for Point Clouds
- [ECCV 2024] Learning 3D Geometry and Feature Consistent Gaussian Splatting for Object Removal