Cross-Instance Gaussian Splatting Registration via Geometry-Aware Feature-Guided Alignment¶

会议: CVPR 2026
arXiv: 2603.21936
代码: https://bgu-cs-vil.github.io/GSA-project (有)
领域: 3D 视觉 / 3D 配准
关键词: 3D Gaussian Splatting, 跨实例配准, 相似变换, 几何感知特征, 逆辐射场

一句话总结¶

提出 GSA（Gaussian Splatting Alignment），首个实现跨实例类别级 3DGS 模型配准的方法，通过几何感知特征引导的粗配准（扩展 ICP 求解相似变换）和多视角特征一致性的精配准，在同物体和跨物体场景下均大幅超越现有方法。

研究背景与动机¶

领域现状：3D Gaussian Splatting（3DGS）已成为高保真新视角合成的强力表示。但对齐两个独立 3DGS 模型是一个开放挑战，现有方法如 GaussReg 依赖 ICP，仅能处理同一物体模型的配准。

现有痛点：(1) ICP 在初始化差（如 180° 旋转）时失败；(2) ICP 无法处理未知尺度，需要给定真实尺度；(3) 跨实例（不同物体）配准时几何差异导致最近点匹配收敛到错误对应关系。

核心矛盾：3DGS 模型由 SfM 生成，天然存在任意尺度、位置和朝向差异；不同物体还有形状和外观差异，使得传统几何方法完全失效。

本文要解决：如何在未知尺度下，将两个可能是不同物体（但同类别）的 3DGS 模型做相似变换（旋转+平移+缩放）对齐？

切入角度：(1) 用几何感知的视点引导特征替代纯几何信号做对应关系建立；(2) 将逆辐射场框架从单视角相机位姿估计推广到多视角场域-场域配准。

核心 idea：几何感知语义特征引导的扩展 ICP + 多视角特征场一致性优化 = 鲁棒的跨实例 3DGS 配准。

方法详解¶

整体框架¶

分三步：(1) 预处理：用 COLMAP 估计相机位姿，用 Mariotti 等人的方法提取几何感知特征，用 SAM 分割前景；(2) 粗配准：特征引导的迭代绝对定向求解器，估计 Sim(3) 变换；(3) 精配准：多视角特征场一致性优化，进一步提升配准精度。

关键设计¶

Feature-augmented 3DGS：
- 功能：为每个 Gaussian 增加 3 维几何感知特征 \(\mathbf{f} \in \mathbb{R}^3\)，通过将 2D 视点引导球面特征 "lift" 到 3D。
- 核心思路：训练时联合优化 RGB 损失和特征损失 \(\mathcal{L} = \mathcal{L}_{\text{rgb}} + \lambda_f \mathcal{L}_f\)，其中 \(\mathcal{L}_f = \|F - F^r\|_1\)。特征和几何优化解耦：先优化颜色和几何，再固定后优化特征。
- 设计动机：选用 Mariotti 等人的几何感知特征而非 DINOv2，因为后者缺乏 3D 几何意识，存在空间歧义（如左右对称部分特征相同），不适合配准任务。
Coarse Alignment：特征引导的绝对定向求解器：
- 功能：迭代交替进行三步——(a) 对每个源点，在目标中按特征相似性筛选候选集 \(\mathcal{Q}_i = \{\mathbf{q}_j \mid \|\mathbf{f}_i - \mathbf{f}_j\| \leq \tau_f\}\)，再从中选空间最近点；(b) 闭式求解最优 Sim(3) 变换（Kabsch-Umeyama 求旋转+平移，Horn 求尺度）；(c) 应用变换。
- 核心思路：\(\min_{T^{(k)} \in \mathbf{Sim(3)}} \sum_i \|T^{(k)}(\mathbf{p}_i^{(k)}) - \mathbf{q}_i^{(k)}\|_2^2\)
- 设计动机：通过特征约束筛选候选对应关系，同时解决了 ICP 的三大问题：初始化敏感、无法处理未知尺度、跨实例失败。仅需 3-6 次迭代即可收敛。
Fine Alignment：多视角特征场一致性：
- 功能：利用粗配准结果初始化，优化多视角特征渲染一致性损失： \(\mathcal{L}_{\text{MV-FC}} = \sum_{k=1}^N \|\text{Rend}_f(T\mathcal{G}_1, C_k^*) - \text{Rend}_f(\mathcal{G}_2, C_k^*)\|_2^2\)
- 核心思路：从逆辐射场问题（iNeRF）推广而来——将单视角相机位姿估计 SE(3) 推广至多视角场域配准 Sim(3)，并用特征渲染替代颜色渲染以支持跨实例。
- 设计动机：多视角约束消除了单视角下尺度-深度歧义；特征渲染使得外观不同的跨实例物体也能对齐，因为几何感知特征在同类别物体间具有一致性。

损失函数 / 训练策略¶

3DGS 构建：\(\mathcal{L} = \mathcal{L}_{\text{rgb}} + \lambda_f \mathcal{L}_f\)，\(\lambda_f=1\)，\(\alpha=0.2\)
粗配准：迭代最近点+闭式求解，\(\tau_f=0.01\)，最多 6 次迭代
精配准：多视角特征一致性，3 个多样化视角，60 次迭代优化，学习率 0.01

实验关键数据¶

主实验——同物体配准（Objaverse，15 物体）¶

方法	均需真实尺度?	Mean RRE (°) ↓	说明
FGR	是	很高	噪声数据下失败
REGTR	是	很高	假设刚体变换
GaussReg	是	较高	初始化敏感
GSA (coarse only)	否	SOTA	仅粗配准已超越所有方法
GSA (coarse + fine)	否	近乎完美	数量级提升

跨实例配准（ShapeNet，6 类别×10 对）¶

方法	Mean RRE (°) ↓	说明
FGR	极高	完全失败
REGTR	极高	完全失败
GaussReg	极高	完全失败
GSA	最低	首个有效的跨实例方案

消融实验¶

配置	RRE 影响	说明
去掉特征引导（纯 ICP）	粗配准 136.29°, 精配准 139.82°	完全失败
用 DINOv2 特征替代	通常完全失败	空间歧义
精配准用颜色渲染替代特征渲染	显著精度下降	跨实例颜色不同
3 相似视角（vs 3 多样化视角）	精度下降	视角多样性重要

关键发现¶

粗配准阶段已经达到 SOTA；精配准阶段进一步将误差降低到接近完美（同物体）
即使初始化包含 180° 旋转和 10× 尺度差异，GSA 仍能成功对齐
几何感知特征是成功的关键——DINOv2 等替代方案在配准任务中完全失败

亮点与洞察¶

首创类别级 3DGS 配准：填补了跨实例对齐的空白，开启了物体替换、同步新视角合成等新应用
优雅的理论推导：从 iNeRF 到场域-场域配准的推广过程逻辑严密，从 SE(3) 到 Sim(3)、单视角到多视角、颜色到特征的逐步扩展
实用性强：粗配准 3 次迭代+精配准 60 次迭代即可完成，效率可接受

局限与展望¶

性能依赖于几何感知特征的质量，若特征不佳则对齐精度下降
仅在物体级别验证，场景级别（多物体复杂场景）的扩展未探索
精配准中多视角选择策略可进一步自动化（目前使用预定义视角）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首创跨实例 3DGS 配准，理论推导优雅
实验充分度: ⭐⭐⭐⭐⭐ 合成+真实数据，同物体+跨实例，完整消融
写作质量: ⭐⭐⭐⭐⭐ 推导清晰，层层递进，可读性强
价值: ⭐⭐⭐⭐⭐ 开创性工作，解锁新应用方向