Hierarchical Visual Relocalization with Nearest View Synthesis from Feature Gaussian Splatting¶

会议: CVPR 2026
arXiv: 2603.29185
代码: https://hqitao.github.io/SplatHLoc
领域: 3D视觉
关键词: 视觉重定位, 高斯溅射, 特征匹配, 新视角合成, 层级定位

一句话总结¶

SplatHLoc 提出了一种基于 Feature Gaussian Splatting (FGS) 的层级视觉重定位框架，通过自适应视点检索合成更接近查询视角的虚拟视图，以及混合特征匹配策略（渲染特征做粗匹配 + 半稠密匹配器做细匹配），在室内外数据集上达到了新的 SOTA 精度。

研究背景与动机¶

领域现状：视觉重定位旨在估计相机在已知场景中的 6-DoF 位姿，是机器人导航、AR、自动驾驶等应用的基础。目前主流方法分为：基于结构的方法（SfM 点云 + PnP）、基于回归的方法（直接回归位姿/场景坐标）和基于渲染的方法（NeRF/GS 渲染引导）。其中层级方法（如 HLoc）因模块化设计和对大场景的可扩展性而被广泛采用。
现有痛点：层级方法依赖数据库图像检索后做特征匹配，但数据库图像分布不均匀，某些区域观测稀疏，导致检索到的图像与查询视角差异大，匹配不可靠。渲染方法虽能合成新视点，但渲染图像常含 floater 等伪影，从渲染图提取的特征做匹配不稳定。
核心矛盾：渲染特征（FGS 直接渲染）和图像encoder提取的特征之间存在特征鸿沟——渲染特征具有多视角先验知识，适合粗粒度匹配；但因与查询特征的域差异，不适合精细像素级匹配。现有方法（如 STDLoc）忽略了这一不对称性。
本文目标 (1) 数据库图像稀疏导致检索视角差异大的问题；(2) 渲染特征与查询特征之间的特征鸿沟问题。
切入角度：作者观察到，FGS 渲染特征在粗匹配阶段表现更好（因为包含多视角知识、误差累积少），而图像编码器提取的细特征在精匹配阶段更有效（因为能建模精确几何关系）。
核心 idea：用 FGS 合成虚拟近视角进行自适应检索 + 渲染特征粗匹配与半稠密匹配器细匹配的混合策略，同时解决稀疏观测和特征鸿沟问题。

方法详解¶

整体框架¶

SplatHLoc 是一个层级重定位框架，输入为查询图像，输出为 6-DoF 位姿。整体 pipeline 分为三个阶段：(1) 自适应粗到细视点检索——先从数据库中检索候选图像，如果匹配内点数不足，则利用 FGS 渲染虚拟视点进行二次检索；(2) 混合特征匹配——用渲染特征做粗匹配、用半稠密匹配器做细匹配，建立 2D-2D 对应关系，再通过渲染深度图提升为 2D-3D；(3) RANSAC-PnP 估计初始位姿后，迭代渲染-匹配精化位姿。

关键设计¶

Feature Gaussian Splatting (FGS) 场景表示:
- 功能：作为统一的场景表示，同时渲染颜色图、深度图和特征图
- 核心思路：在标准 3DGS 基础上为每个高斯原语增加特征向量 \(\mathbf{f}_i \in \mathbb{R}^d\)。为提高效率，渲染低维特征 \(F_r^{\text{low}} \in \mathbb{R}^{C' \times H \times W}\)（\(C'=64\)），再通过一个 3×3 卷积解码器恢复到高维 \(C=256\)。训练损失为光度损失 \(\mathcal{L}_{\text{rgb}}\) 与特征损失 \(\mathcal{L}_{\text{feat}}\) 的加权和
- 设计动机：低维渲染 + 解码器的设计显著降低了 FGS 地图大小（353MB vs STDLoc 的 904MB）和 GPU 内存需求（4GB vs 12GB），同时训练时间缩短 3 倍
自适应粗到细视点检索 (Adaptive C2F Viewpoint Retrieval):
- 功能：找到与查询图像视角最接近的参考图像
- 核心思路：粗阶段用 MixVPR 做全局描述子检索 top-\(k_1\) 候选，对每对用 SuperPoint+LightGlue 做几何验证筛选最佳匹配。若内点数 \(N\) 低于阈值（说明共视性不足），进入细阶段：对粗检索位姿做 \(k_2\) 次随机扰动（旋转 \(a°\)、平移 \(b\) m），从 FGS 渲染虚拟关键帧，再做二次检索和几何验证选最佳虚拟视点，其中 \(k_3 < k_1 \leq 10 < k_2 \leq 150\)
- 设计动机：与 GPVK-VL 预先大量合成虚拟视图不同，本方法只在初次检索不够好时才合成，按需触发效率更高。搜索空间逐步缩小，保持了计算效率
混合粗到细特征匹配 (Hybrid C2F Feature Matching):
- 功能：在查询图像和渲染图像之间建立精确的 2D-2D 对应关系
- 核心思路：粗匹配阶段在低分辨率（\(H/8 \times W/8\)）上计算查询特征 \(F_t\) 与渲染特征 \(F_r^{\text{high}}\) 的相似度矩阵，通过双向 softmax + MNN 过滤建立粗对应 \(\mathcal{C}_{q,r}^c\)。细匹配阶段用半稠密匹配器 JamMa 分别从查询图和渲染图提取细特征（\(H/2 \times W/2\) 分辨率），在粗对应引导下裁剪局部窗口做精细匹配，得到亚像素级对应 \(\mathcal{C}_{q,r}^f\)
- 设计动机：实验验证了渲染特征在粗匹配阶段优于半稠密匹配器的粗特征（因为包含多视角知识），而半稠密匹配器在细匹配阶段优于渲染特征（因为能建模精确几何关系）。这种"扬长避短"的混合策略比任何单一方法都好

损失函数 / 训练策略¶

FGS 训练遵循标准 3DGS，损失为 \(\mathcal{L} = \mathcal{L}_{\text{rgb}} + \gamma \mathcal{L}_{\text{feat}}\)，其中 \(\gamma=1\)，\(\mathcal{L}_{\text{rgb}}\) 结合 L1 和 D-SSIM 损失（\(\lambda=0.2\)），\(\mathcal{L}_{\text{feat}}\) 为渲染特征与 SuperPoint 提取特征的 L1 损失。每个场景训练 30K 步。

实验关键数据¶

主实验¶

在 7-Scenes 室内数据集上的重定位精度（中位平移/旋转误差）：

方法	平均误差 (cm/°)	类型
SplatHLoc (本文)	0.55/0.17	GS渲染
STDLoc	0.76/0.24	GS渲染
LoGS	0.76/0.24	GS渲染
ACE+GS-CPR	0.78/0.25	GS渲染
HLoc (SP+SG)	3.31/1.08	结构化

在 Cambridge Landmarks 室外数据集上：

方法	平均误差 (cm/°)
SplatHLoc (本文)	9/0.13
STDLoc	10/0.14
LoGS	10/0.20

消融实验¶

在 7-Scenes Stairs 场景（低纹理）上的消融：

配置	误差 (cm/°)	RR@[5cm,5°]	说明
Baseline (MixVPR + SP+LG)	1.82/0.49	75.5%	基线
+ Adaptive Retrieval	1.57/0.45	80.5%	自适应检索提升 5%
+ Hybrid Matcher	1.14/0.33	84.0%	混合匹配提升 8.5%
Full (两者结合)	1.03/0.30	91.9%	两者互补，总提升 16.4%

关键发现¶

混合匹配器贡献最大：将渲染特征的粗匹配与半稠密匹配器的细匹配结合，在 7-Scenes 上 RR@[2cm,2°] 从 91.46% 提升至 93.84%（用 JamMa）
反向配置（半稠密匹配器粗匹配 + 渲染特征细匹配）反而会降低性能，验证了"渲染特征适合粗、提取特征适合细"的核心观察
SplatHLoc 的迭代精化速度比 STDLoc 快近 2 倍，因为只渲染低维特征再解码，而非直接渲染高维特征图
FGS 地图大小仅为 STDLoc 的 39%（353MB vs 904MB），训练时间缩短至 1/3

亮点与洞察¶

渲染特征与提取特征的互补性观察非常精炼——渲染特征天然具有多视角一致性但存在域差异，提取特征几何精确但缺乏跨视角信息。这个 insight 直接导出了混合匹配策略
按需合成虚拟视图的设计很实用——只在检索质量不够时才触发 FGS 渲染，避免了预先大量合成的存储和计算开销
低维渲染 + 解码器的设计可以迁移到其他需要 FGS 特征渲染的任务，如语义 SLAM、3D 场景理解等

局限与展望¶

性能依赖高斯地图质量，稀疏训练图像会导致地图质量下降
作者提到可用 3D 重建基础模型替代 COLMAP 初始化高斯原语
未测试在动态场景下的表现

评分¶

新颖性: ⭐⭐⭐⭐ 混合匹配的 insight 新颖实用，但整体框架是现有组件的组合
实验充分度: ⭐⭐⭐⭐⭐ 三个经典数据集 + 详细消融 + 运行时分析 + 地图大小对比
写作质量: ⭐⭐⭐⭐ 论文结构清晰，动机推导自然
价值: ⭐⭐⭐⭐ 在视觉重定位领域取得了全面的 SOTA，实用性强

Hierarchical Visual Relocalization with Nearest View Synthesis from Feature Gaussian Splatting¶

会议: CVPR 2026
arXiv: 2603.29185
代码: https://hqitao.github.io/SplatHLoc
领域: 3D视觉
关键词: 视觉重定位, 高斯溅射, 特征匹配, 新视角合成, 分层定位

一句话总结¶

提出 SplatHLoc，一种基于 Feature Gaussian Splatting 的分层视觉重定位框架，通过自适应视点检索合成更接近查询的虚拟视图，并设计混合特征匹配策略（渲染特征用于粗匹配、半稠密匹配器用于细匹配），在室内外重定位基准上取得 SOTA。

研究背景与动机¶

领域现状：视觉重定位是 3D 视觉的基础任务，主流方法分为三类：基于结构的方法（SfM 稀疏点云 + PnP）、基于回归的方法（直接回归位姿或场景坐标）、以及基于渲染的方法（NeRF/GS 的新视角合成）。其中，分层方法（如 HLoc）因模块化设计具有良好的可扩展性。
现有痛点：分层重定位方法依赖数据库中与查询视角足够接近的图像，当数据库图像分布稀疏时，难以建立可靠的特征对应关系。现有的虚拟关键帧增强方法（如 GPVK-VL）虽然合成了额外视图，但不能保证与查询视角对齐，且带来大量存储开销。
核心矛盾：GS 渲染的图像经常含有伪影，从渲染图像中提取的特征用于匹配时对应关系不稳定。而 FGS 直接渲染的特征虽然包含多视角知识、减少了误差累积，但与查询图像特征之间存在特征域差异（feature gap），不适合像素级精细匹配。
本文目标（a）稀疏数据库图像导致检索到的参考图像视角偏差大；（b）渲染特征与提取特征各有优劣，如何互补？
切入角度：作者发现渲染特征在粗匹配阶段表现更好（多视角知识、减少累积误差），而从图像直接提取的特征在细匹配阶段更好（精确的几何关系），因此可以分阶段使用不同特征。
核心 idea：在 FGS 场景表示上构建自适应视点检索（合成更接近查询的虚拟参考图）和混合特征匹配（粗阶段用渲染特征、细阶段用半稠密匹配器特征）。

方法详解¶

整体框架¶

SplatHLoc 是一个分层重定位流水线：输入查询图像，先通过 VPR 检索最相似的数据库图像和位姿，若匹配质量不足则进行自适应视点检索。然后用混合特征匹配器建立查询与参考间的 2D-2D 对应关系，通过渲染的深度图升维到 2D-3D，最终用 RANSAC-PnP 估计位姿并迭代优化。

关键设计¶

Feature Gaussian Splatting (FGS) 场景表示:
- 功能：扩展 3DGS 为每个高斯原语附加可学习的特征向量，支持同时渲染颜色、深度和特征图
- 核心思路：在标准 3DGS 基础上为每个高斯原语增加 \(d\) 维特征 \(\mathbf{f}_i\)，训练时用 SuperPoint 编码器提取真值特征 \(F_t\)，同时渲染低维特征 \(F_r^{low}\)（\(C'=64\) 维），再通过 \(3 \times 3\) 卷积解码器恢复到 \(C=256\) 维。通过联合优化光度损失和特征损失来训练。特征压缩策略大幅减少了存储和渲染开销
- 设计动机：低维渲染 + 解码器恢复的设计将地图大小从 904MB 降到 353MB，训练时间从 146 分钟降到 46 分钟，GPU 内存从 12GB 降到 4GB
自适应粗到细视点检索 (Adaptive C2F Retrieval):
- 功能：在数据库图像稀疏时合成与查询更接近的虚拟参考视图
- 核心思路：分两阶段。粗阶段用 MixVPR 检索 top-\(k_1\) 候选图，用 SuperPoint+LightGlue 进行几何验证选出最佳匹配 \(I_c^c\)。若内点数 \(N\) 低于阈值，进入细阶段：对 \(I_c^c\) 的位姿在 \(a°\) 和 \(b\) m 范围内随机扰动，渲染 \(k_2 \leq 150\) 个虚拟视图，再次检索+几何验证，找到最贴合查询视角的虚拟图像
- 设计动机：仅在初始检索质量不足时才触发第二轮检索，且搜索空间逐步缩小，保持高效率。相比 GPVK-VL 的"先合成再检索"策略，本方法是按需生成，不需要存储大量预渲染的虚拟关键帧
混合粗到细特征匹配 (Hybrid C2F Matching):
- 功能：结合渲染特征和半稠密匹配器特征进行高精度特征匹配
- 核心思路：粗匹配阶段在 \(C \times H/8 \times W/8\) 分辨率下计算查询特征 \(F_t\) 和渲染特征 \(F_r^{high}\) 的相似度矩阵，通过双向 softmax + 互近邻过滤获得粗对应 \(\mathcal{C}_{q,r}^c\)。细匹配阶段用 JamMa 半稠密匹配器从渲染图和查询图中提取细特征（\(H/2 \times W/2\) 分辨率），在粗对应引导下通过 \(W \times W\) 特征窗口计算相关矩阵，经解码器输出亚像素级精细对应
- 设计动机：消融实验明确证实——渲染特征用于细匹配反而性能下降（7-Scenes RR@[2cm,2°] -0.61），而用于粗匹配时搭配半稠密匹配器的细特征则性能显著提升（+2.91）。这符合直觉：渲染特征含多视角先验适合 patch 级对齐，但 feature gap 限制了像素级精度

损失函数 / 训练策略¶

训练阶段联合优化光度损失（\(\mathcal{L}_1\) + D-SSIM 加权）和特征损失（\(\mathcal{L}_1\)），权重 \(\gamma=1\)，\(\lambda=0.2\)，训练 30K 步。重定位阶段迭代优化 \(n\) 次（室内 \(n=4\)，室外 \(n=2\)）。

实验关键数据¶

主实验¶

数据集	指标	SplatHLoc	STDLoc (prev SOTA)	提升
7-Scenes (avg)	中位误差 cm/°	0.55/0.17	0.76/0.24	-28%/-29%
12-Scenes (avg)	中位误差 cm/°	0.3/0.14	-	-
Cambridge (avg)	中位误差 cm/°	9/0.13	10/0.14	-10%/-7%

7-Scenes 上 SplatHLoc 在所有 7 个场景上全面超越 STDLoc，平均中位平移误差从 0.76cm 降到 0.55cm。

消融实验¶

配置	Stairs 误差 cm/°	RR@[5cm,5°]	说明
Baseline (MixVPR + SP+LG)	1.82/0.49	75.5%	标准分层方法
+ Adaptive Retrieval	1.57/0.45	80.5%	自适应检索提升 5%
+ Hybrid Matcher	1.14/0.33	84.0%	混合匹配器提升 8.5%
Full (两者结合)	1.03/0.30	91.9%	组合收益最大

关键发现¶

混合匹配器是最大贡献模块，将弱纹理场景（Stairs）的 recall 从 75.5% 提升到 84.0%
渲染特征只适合粗匹配：用于细匹配时 RR 下降 0.61%，用于粗匹配时 RR 提升 2.91%
FGS 地图压缩策略极其有效：相比 STDLoc 降低 61% 存储、68% 训练时间、67% GPU 内存
运行效率上，在迭代优化阶段 SplatHLoc 比 STDLoc 快约 2 倍

亮点与洞察¶

渲染特征分阶段使用的洞察非常精准：不是简单地"渲染特征好或不好"，而是发现粗匹配阶段渲染特征更优（多视角先验）、细匹配阶段图像特征更优（精确几何），这个观察可以迁移到所有涉及合成-真实特征匹配的任务
按需合成虚拟视图的策略比预渲染所有可能视图更高效：只在初始检索不够好时才启动，搜索空间逐步缩小
特征维度压缩 + 解码器的设计很务实：64 维渲染 → 卷积恢复 256 维，在几乎不损失性能的前提下大幅削减资源消耗

局限与展望¶

性能依赖高斯地图质量，而地图质量受建图图像数量影响
室外大场景需要分块建图策略（作者提到未来工作）
依赖 SfM 初始化高斯原语，未来可考虑 3D 重建基础模型替代 COLMAP
JamMa 匹配器是固定的，未来可探索端到端联合训练

评分¶

新颖性: ⭐⭐⭐⭐ 渲染特征的分阶段使用洞察新颖，但整体框架仍是分层匹配+迭代优化的渐进改进
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、完整消融、效率对比、可视化分析都很充分
写作质量: ⭐⭐⭐⭐ 条理清晰，图表信息丰富
价值: ⭐⭐⭐⭐ 实用性强，在效率和精度上都有明确提升

Hierarchical Visual Relocalization with Nearest View Synthesis from Feature Gaussian Splatting¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Hierarchical Visual Relocalization with Nearest View Synthesis from Feature Gaussian Splatting¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶