跳转至

Hierarchical Visual Relocalization with Nearest View Synthesis from Feature Gaussian Splatting

会议: CVPR 2026
arXiv: 2603.29185
代码: https://hqitao.github.io/SplatHLoc
领域: 3D视觉
关键词: 视觉重定位, 高斯溅射, 特征匹配, 新视角合成, 层级定位

一句话总结

SplatHLoc 提出了一种基于 Feature Gaussian Splatting (FGS) 的层级视觉重定位框架,通过自适应视点检索合成更接近查询视角的虚拟视图,以及混合特征匹配策略(渲染特征做粗匹配 + 半稠密匹配器做细匹配),在室内外数据集上达到了新的 SOTA 精度。

研究背景与动机

  1. 领域现状:视觉重定位旨在估计相机在已知场景中的 6-DoF 位姿,是机器人导航、AR、自动驾驶等应用的基础。目前主流方法分为:基于结构的方法(SfM 点云 + PnP)、基于回归的方法(直接回归位姿/场景坐标)和基于渲染的方法(NeRF/GS 渲染引导)。其中层级方法(如 HLoc)因模块化设计和对大场景的可扩展性而被广泛采用。

  2. 现有痛点:层级方法依赖数据库图像检索后做特征匹配,但数据库图像分布不均匀,某些区域观测稀疏,导致检索到的图像与查询视角差异大,匹配不可靠。渲染方法虽能合成新视点,但渲染图像常含 floater 等伪影,从渲染图提取的特征做匹配不稳定。

  3. 核心矛盾:渲染特征(FGS 直接渲染)和图像encoder提取的特征之间存在特征鸿沟——渲染特征具有多视角先验知识,适合粗粒度匹配;但因与查询特征的域差异,不适合精细像素级匹配。现有方法(如 STDLoc)忽略了这一不对称性。

  4. 本文目标 (1) 数据库图像稀疏导致检索视角差异大的问题;(2) 渲染特征与查询特征之间的特征鸿沟问题。

  5. 切入角度:作者观察到,FGS 渲染特征在粗匹配阶段表现更好(因为包含多视角知识、误差累积少),而图像编码器提取的细特征在精匹配阶段更有效(因为能建模精确几何关系)。

  6. 核心 idea:用 FGS 合成虚拟近视角进行自适应检索 + 渲染特征粗匹配与半稠密匹配器细匹配的混合策略,同时解决稀疏观测和特征鸿沟问题。

方法详解

整体框架

SplatHLoc 是一个层级重定位框架,输入为查询图像,输出为 6-DoF 位姿。整体 pipeline 分为三个阶段:(1) 自适应粗到细视点检索——先从数据库中检索候选图像,如果匹配内点数不足,则利用 FGS 渲染虚拟视点进行二次检索;(2) 混合特征匹配——用渲染特征做粗匹配、用半稠密匹配器做细匹配,建立 2D-2D 对应关系,再通过渲染深度图提升为 2D-3D;(3) RANSAC-PnP 估计初始位姿后,迭代渲染-匹配精化位姿。

关键设计

  1. Feature Gaussian Splatting (FGS) 场景表示:

    • 功能:作为统一的场景表示,同时渲染颜色图、深度图和特征图
    • 核心思路:在标准 3DGS 基础上为每个高斯原语增加特征向量 \(\mathbf{f}_i \in \mathbb{R}^d\)。为提高效率,渲染低维特征 \(F_r^{\text{low}} \in \mathbb{R}^{C' \times H \times W}\)\(C'=64\)),再通过一个 3×3 卷积解码器恢复到高维 \(C=256\)。训练损失为光度损失 \(\mathcal{L}_{\text{rgb}}\) 与特征损失 \(\mathcal{L}_{\text{feat}}\) 的加权和
    • 设计动机:低维渲染 + 解码器的设计显著降低了 FGS 地图大小(353MB vs STDLoc 的 904MB)和 GPU 内存需求(4GB vs 12GB),同时训练时间缩短 3 倍
  2. 自适应粗到细视点检索 (Adaptive C2F Viewpoint Retrieval):

    • 功能:找到与查询图像视角最接近的参考图像
    • 核心思路:粗阶段用 MixVPR 做全局描述子检索 top-\(k_1\) 候选,对每对用 SuperPoint+LightGlue 做几何验证筛选最佳匹配。若内点数 \(N\) 低于阈值(说明共视性不足),进入细阶段:对粗检索位姿做 \(k_2\) 次随机扰动(旋转 \(a°\)、平移 \(b\) m),从 FGS 渲染虚拟关键帧,再做二次检索和几何验证选最佳虚拟视点,其中 \(k_3 < k_1 \leq 10 < k_2 \leq 150\)
    • 设计动机:与 GPVK-VL 预先大量合成虚拟视图不同,本方法只在初次检索不够好时才合成,按需触发效率更高。搜索空间逐步缩小,保持了计算效率
  3. 混合粗到细特征匹配 (Hybrid C2F Feature Matching):

    • 功能:在查询图像和渲染图像之间建立精确的 2D-2D 对应关系
    • 核心思路:粗匹配阶段在低分辨率(\(H/8 \times W/8\))上计算查询特征 \(F_t\) 与渲染特征 \(F_r^{\text{high}}\) 的相似度矩阵,通过双向 softmax + MNN 过滤建立粗对应 \(\mathcal{C}_{q,r}^c\)。细匹配阶段用半稠密匹配器 JamMa 分别从查询图和渲染图提取细特征(\(H/2 \times W/2\) 分辨率),在粗对应引导下裁剪局部窗口做精细匹配,得到亚像素级对应 \(\mathcal{C}_{q,r}^f\)
    • 设计动机:实验验证了渲染特征在粗匹配阶段优于半稠密匹配器的粗特征(因为包含多视角知识),而半稠密匹配器在细匹配阶段优于渲染特征(因为能建模精确几何关系)。这种"扬长避短"的混合策略比任何单一方法都好

损失函数 / 训练策略

FGS 训练遵循标准 3DGS,损失为 \(\mathcal{L} = \mathcal{L}_{\text{rgb}} + \gamma \mathcal{L}_{\text{feat}}\),其中 \(\gamma=1\)\(\mathcal{L}_{\text{rgb}}\) 结合 L1 和 D-SSIM 损失(\(\lambda=0.2\)),\(\mathcal{L}_{\text{feat}}\) 为渲染特征与 SuperPoint 提取特征的 L1 损失。每个场景训练 30K 步。

实验关键数据

主实验

在 7-Scenes 室内数据集上的重定位精度(中位平移/旋转误差):

方法 平均误差 (cm/°) 类型
SplatHLoc (本文) 0.55/0.17 GS渲染
STDLoc 0.76/0.24 GS渲染
LoGS 0.76/0.24 GS渲染
ACE+GS-CPR 0.78/0.25 GS渲染
HLoc (SP+SG) 3.31/1.08 结构化

在 Cambridge Landmarks 室外数据集上:

方法 平均误差 (cm/°)
SplatHLoc (本文) 9/0.13
STDLoc 10/0.14
LoGS 10/0.20

消融实验

在 7-Scenes Stairs 场景(低纹理)上的消融:

配置 误差 (cm/°) RR@[5cm,5°] 说明
Baseline (MixVPR + SP+LG) 1.82/0.49 75.5% 基线
+ Adaptive Retrieval 1.57/0.45 80.5% 自适应检索提升 5%
+ Hybrid Matcher 1.14/0.33 84.0% 混合匹配提升 8.5%
Full (两者结合) 1.03/0.30 91.9% 两者互补,总提升 16.4%

关键发现

  • 混合匹配器贡献最大:将渲染特征的粗匹配与半稠密匹配器的细匹配结合,在 7-Scenes 上 RR@[2cm,2°] 从 91.46% 提升至 93.84%(用 JamMa)
  • 反向配置(半稠密匹配器粗匹配 + 渲染特征细匹配)反而会降低性能,验证了"渲染特征适合粗、提取特征适合细"的核心观察
  • SplatHLoc 的迭代精化速度比 STDLoc 快近 2 倍,因为只渲染低维特征再解码,而非直接渲染高维特征图
  • FGS 地图大小仅为 STDLoc 的 39%(353MB vs 904MB),训练时间缩短至 1/3

亮点与洞察

  • 渲染特征与提取特征的互补性观察非常精炼——渲染特征天然具有多视角一致性但存在域差异,提取特征几何精确但缺乏跨视角信息。这个 insight 直接导出了混合匹配策略
  • 按需合成虚拟视图的设计很实用——只在检索质量不够时才触发 FGS 渲染,避免了预先大量合成的存储和计算开销
  • 低维渲染 + 解码器的设计可以迁移到其他需要 FGS 特征渲染的任务,如语义 SLAM、3D 场景理解等

局限与展望

  • 性能依赖高斯地图质量,稀疏训练图像会导致地图质量下降
  • 作者提到可用 3D 重建基础模型替代 COLMAP 初始化高斯原语
  • 未测试在动态场景下的表现

相关工作与启发

  • vs STDLoc: STDLoc 用渲染特征做粗细两阶段匹配,忽略了渲染-查询特征鸿沟;SplatHLoc 只在粗阶段用渲染特征,细阶段交给专用匹配器,更合理
  • vs GS-CPR: GS-CPR 用 MASt3R 做匹配但分辨率低、计算量大;SplatHLoc 用轻量 JamMa 做细匹配,兼顾精度和效率
  • vs GPVK-VL: 预先合成大量虚拟关键帧存储开销大;SplatHLoc 按需合成,更高效

评分

  • 新颖性: ⭐⭐⭐⭐ 混合匹配的 insight 新颖实用,但整体框架是现有组件的组合
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个经典数据集 + 详细消融 + 运行时分析 + 地图大小对比
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,动机推导自然
  • 价值: ⭐⭐⭐⭐ 在视觉重定位领域取得了全面的 SOTA,实用性强

Hierarchical Visual Relocalization with Nearest View Synthesis from Feature Gaussian Splatting

会议: CVPR 2026
arXiv: 2603.29185
代码: https://hqitao.github.io/SplatHLoc
领域: 3D视觉
关键词: 视觉重定位, 高斯溅射, 特征匹配, 新视角合成, 分层定位

一句话总结

提出 SplatHLoc,一种基于 Feature Gaussian Splatting 的分层视觉重定位框架,通过自适应视点检索合成更接近查询的虚拟视图,并设计混合特征匹配策略(渲染特征用于粗匹配、半稠密匹配器用于细匹配),在室内外重定位基准上取得 SOTA。

研究背景与动机

  1. 领域现状:视觉重定位是 3D 视觉的基础任务,主流方法分为三类:基于结构的方法(SfM 稀疏点云 + PnP)、基于回归的方法(直接回归位姿或场景坐标)、以及基于渲染的方法(NeRF/GS 的新视角合成)。其中,分层方法(如 HLoc)因模块化设计具有良好的可扩展性。

  2. 现有痛点:分层重定位方法依赖数据库中与查询视角足够接近的图像,当数据库图像分布稀疏时,难以建立可靠的特征对应关系。现有的虚拟关键帧增强方法(如 GPVK-VL)虽然合成了额外视图,但不能保证与查询视角对齐,且带来大量存储开销。

  3. 核心矛盾:GS 渲染的图像经常含有伪影,从渲染图像中提取的特征用于匹配时对应关系不稳定。而 FGS 直接渲染的特征虽然包含多视角知识、减少了误差累积,但与查询图像特征之间存在特征域差异(feature gap),不适合像素级精细匹配。

  4. 本文目标(a)稀疏数据库图像导致检索到的参考图像视角偏差大;(b)渲染特征与提取特征各有优劣,如何互补?

  5. 切入角度:作者发现渲染特征在粗匹配阶段表现更好(多视角知识、减少累积误差),而从图像直接提取的特征在细匹配阶段更好(精确的几何关系),因此可以分阶段使用不同特征。

  6. 核心 idea:在 FGS 场景表示上构建自适应视点检索(合成更接近查询的虚拟参考图)和混合特征匹配(粗阶段用渲染特征、细阶段用半稠密匹配器特征)。

方法详解

整体框架

SplatHLoc 是一个分层重定位流水线:输入查询图像,先通过 VPR 检索最相似的数据库图像和位姿,若匹配质量不足则进行自适应视点检索。然后用混合特征匹配器建立查询与参考间的 2D-2D 对应关系,通过渲染的深度图升维到 2D-3D,最终用 RANSAC-PnP 估计位姿并迭代优化。

关键设计

  1. Feature Gaussian Splatting (FGS) 场景表示:

    • 功能:扩展 3DGS 为每个高斯原语附加可学习的特征向量,支持同时渲染颜色、深度和特征图
    • 核心思路:在标准 3DGS 基础上为每个高斯原语增加 \(d\) 维特征 \(\mathbf{f}_i\),训练时用 SuperPoint 编码器提取真值特征 \(F_t\),同时渲染低维特征 \(F_r^{low}\)\(C'=64\) 维),再通过 \(3 \times 3\) 卷积解码器恢复到 \(C=256\) 维。通过联合优化光度损失和特征损失来训练。特征压缩策略大幅减少了存储和渲染开销
    • 设计动机:低维渲染 + 解码器恢复的设计将地图大小从 904MB 降到 353MB,训练时间从 146 分钟降到 46 分钟,GPU 内存从 12GB 降到 4GB
  2. 自适应粗到细视点检索 (Adaptive C2F Retrieval):

    • 功能:在数据库图像稀疏时合成与查询更接近的虚拟参考视图
    • 核心思路:分两阶段。粗阶段用 MixVPR 检索 top-\(k_1\) 候选图,用 SuperPoint+LightGlue 进行几何验证选出最佳匹配 \(I_c^c\)。若内点数 \(N\) 低于阈值,进入细阶段:对 \(I_c^c\) 的位姿在 \(a°\)\(b\) m 范围内随机扰动,渲染 \(k_2 \leq 150\) 个虚拟视图,再次检索+几何验证,找到最贴合查询视角的虚拟图像
    • 设计动机:仅在初始检索质量不足时才触发第二轮检索,且搜索空间逐步缩小,保持高效率。相比 GPVK-VL 的"先合成再检索"策略,本方法是按需生成,不需要存储大量预渲染的虚拟关键帧
  3. 混合粗到细特征匹配 (Hybrid C2F Matching):

    • 功能:结合渲染特征和半稠密匹配器特征进行高精度特征匹配
    • 核心思路:粗匹配阶段在 \(C \times H/8 \times W/8\) 分辨率下计算查询特征 \(F_t\) 和渲染特征 \(F_r^{high}\) 的相似度矩阵,通过双向 softmax + 互近邻过滤获得粗对应 \(\mathcal{C}_{q,r}^c\)。细匹配阶段用 JamMa 半稠密匹配器从渲染图和查询图中提取细特征(\(H/2 \times W/2\) 分辨率),在粗对应引导下通过 \(W \times W\) 特征窗口计算相关矩阵,经解码器输出亚像素级精细对应
    • 设计动机:消融实验明确证实——渲染特征用于细匹配反而性能下降(7-Scenes RR@[2cm,2°] -0.61),而用于粗匹配时搭配半稠密匹配器的细特征则性能显著提升(+2.91)。这符合直觉:渲染特征含多视角先验适合 patch 级对齐,但 feature gap 限制了像素级精度

损失函数 / 训练策略

训练阶段联合优化光度损失(\(\mathcal{L}_1\) + D-SSIM 加权)和特征损失(\(\mathcal{L}_1\)),权重 \(\gamma=1\)\(\lambda=0.2\),训练 30K 步。重定位阶段迭代优化 \(n\) 次(室内 \(n=4\),室外 \(n=2\))。

实验关键数据

主实验

数据集 指标 SplatHLoc STDLoc (prev SOTA) 提升
7-Scenes (avg) 中位误差 cm/° 0.55/0.17 0.76/0.24 -28%/-29%
12-Scenes (avg) 中位误差 cm/° 0.3/0.14 - -
Cambridge (avg) 中位误差 cm/° 9/0.13 10/0.14 -10%/-7%

7-Scenes 上 SplatHLoc 在所有 7 个场景上全面超越 STDLoc,平均中位平移误差从 0.76cm 降到 0.55cm。

消融实验

配置 Stairs 误差 cm/° RR@[5cm,5°] 说明
Baseline (MixVPR + SP+LG) 1.82/0.49 75.5% 标准分层方法
+ Adaptive Retrieval 1.57/0.45 80.5% 自适应检索提升 5%
+ Hybrid Matcher 1.14/0.33 84.0% 混合匹配器提升 8.5%
Full (两者结合) 1.03/0.30 91.9% 组合收益最大

关键发现

  • 混合匹配器是最大贡献模块,将弱纹理场景(Stairs)的 recall 从 75.5% 提升到 84.0%
  • 渲染特征只适合粗匹配:用于细匹配时 RR 下降 0.61%,用于粗匹配时 RR 提升 2.91%
  • FGS 地图压缩策略极其有效:相比 STDLoc 降低 61% 存储、68% 训练时间、67% GPU 内存
  • 运行效率上,在迭代优化阶段 SplatHLoc 比 STDLoc 快约 2 倍

亮点与洞察

  • 渲染特征分阶段使用的洞察非常精准:不是简单地"渲染特征好或不好",而是发现粗匹配阶段渲染特征更优(多视角先验)、细匹配阶段图像特征更优(精确几何),这个观察可以迁移到所有涉及合成-真实特征匹配的任务
  • 按需合成虚拟视图的策略比预渲染所有可能视图更高效:只在初始检索不够好时才启动,搜索空间逐步缩小
  • 特征维度压缩 + 解码器的设计很务实:64 维渲染 → 卷积恢复 256 维,在几乎不损失性能的前提下大幅削减资源消耗

局限与展望

  • 性能依赖高斯地图质量,而地图质量受建图图像数量影响
  • 室外大场景需要分块建图策略(作者提到未来工作)
  • 依赖 SfM 初始化高斯原语,未来可考虑 3D 重建基础模型替代 COLMAP
  • JamMa 匹配器是固定的,未来可探索端到端联合训练

相关工作与启发

  • vs STDLoc: STDLoc 在粗细两阶段都用渲染特征,忽略了 feature gap 问题。SplatHLoc 的混合策略更合理,在所有数据集上超越。运行速度约为 STDLoc 的 2 倍。
  • vs GPVK-VL: 预先渲染虚拟关键帧增加存储,SplatHLoc 按需合成更高效
  • vs ACE+GS-CPR: GS-CPR 用 MASt3R 做匹配但分辨率低、计算量大,SplatHLoc 更轻量

评分

  • 新颖性: ⭐⭐⭐⭐ 渲染特征的分阶段使用洞察新颖,但整体框架仍是分层匹配+迭代优化的渐进改进
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、完整消融、效率对比、可视化分析都很充分
  • 写作质量: ⭐⭐⭐⭐ 条理清晰,图表信息丰富
  • 价值: ⭐⭐⭐⭐ 实用性强,在效率和精度上都有明确提升

相关论文