跳转至

Adversarial Exploitation of Data Diversity Improves Visual Localization

会议: ICCV 2025
arXiv: 2412.00138
代码: https://ai4ce.github.io/RAP
领域: 3D视觉 / 视觉定位 / 数据增强
关键词: 绝对位姿回归(APR), 3DGS数据增强, 对抗判别器, 外观多样性, 去模糊

一句话总结

提出RAP(Robust Absolute Pose regression)——基于外观感知3DGS的双分支联合训练框架,通过对抗判别器弥合合成-真实域差距+外观/位姿增强数据作为额外监督,在Cambridge Landmarks上平移/旋转误差分别降低38-50%/41-44%,在日夜场景和驾驶场景中表现尤为突出。

背景与动机

APR方法虽然推理速度快,但被认为是在做"图像级记忆"——只能检索训练时见过的位姿。现有方法用NeRF合成更多视角来增强训练,但忽略了外观多样性(光照、天气变化),且合成图像的伪影导致域差距,简单增加数据并不能显著提升。核心假设:外观变化是APR泛化的关键,而以往训练流程未能有效利用多样数据。

核心问题

如何充分利用外观多样的合成数据来提升APR的泛化能力?需要解决:(1)高效生成可控外观变化的合成图像 (2)弥合合成-真实图像的域差距 (3)设计有效利用多样数据的训练范式。

方法详解

整体框架

多序列RGB图像 → 训练外观感知3DGS(含去模糊)→ 渲染多样外观+多视角合成图像 → 双分支训练:Branch-1用真实+合成图对训位姿回归+对抗判别器对齐特征;Branch-2动态生成随机扰动位姿/外观图像作额外监督 → Pose Transformer回归6DoF位姿 → 可选:RAPref用MASt3R匹配+RANSAC-PnP后优化

关键设计

  1. 外观感知3DGS: 基于GS-W的方案,为每个Gaussian学习外观特征E(通过可学习采样器S从图像提取),结合混合权重ω控制动态外观。支持连续插值不同光照/天气条件。同时整合Deblur-GS的运动去模糊,对运动模糊的视频数据渲染更清晰边缘。
  2. 对抗判别器弥合域差距: 特征级对抗训练(LSGAN风格)——判别器区分真实/合成图像的特征,特征提取器(生成器)学习欺骗判别器。通过调整层(Adj)对齐通道维度。推理时丢弃判别器,零额外开销。
  3. Pose Transformer架构: 用EfficientNet-B0提取多尺度特征 → 添加可学习的translation/rotation token → 6层Multi-Head Self-Attention → 回归头输出3D平移+6D旋转(连续表示)。比CNN回归头更好地建模长程依赖。

损失函数 / 训练策略

  • L_total = β₁·L_pose1 + β₂·L_pose2 + β₃·(L_Gen + L_Dis)
  • β₁=β₂=1, β₃=0.7
  • Branch-2每20个epoch在线生成新数据(位姿扰动+外观扰动)
  • 位姿扰动:室内δt=20cm/δr=10°,室外δt=150cm/δr=4°
  • 早停机制(patience=200), FP16训练

实验关键数据

Cambridge Landmarks(室外,纯APR)

方法 平均平移(cm)↓ 平均旋转(°)↓
DFNet 119 2.90
PMNet 90 2.27
RAP (本文) 56 1.28

RAP平移误差降低38%(vs PMNet),旋转误差降低44%

7-Scenes(室内,纯APR, SfM GT)

方法 平均平移(cm)↓ 平均旋转(°)↓
DFNet 12 3.71
PMNet 10 3.24
RAP 5 1.90

平移误差降低50%,旋转误差降低41%

MARS驾驶场景

方法 平均平移(cm)↓ 平均旋转(°)↓
PoseNet 121 1.67
RAP 28 0.60

Aachen Day-Night(极端光照变化)

  • PoseNet: 217 unit / 74.30°
  • RAP: 130 unit / 13.70°(旋转误差降低81%)

推理效率

  • RAP: 279 FPS(torch.compile + AMP, RTX 4060笔记本)
  • RAPref后优化: 0.5s/帧

消融实验要点(Shop场景)

配置 平移(cm)↓ 旋转(°)↓
PoseNet基线 174 5.45
+EfficientNet-B0 103 4.64
+位姿增强 75 3.52
+外观增强 60 3.14
+ConvNet解码 52 2.51
+Transformer 40 1.98
+判别器(完整RAP) 33 1.48

每个组件都有贡献,判别器从40→33cm,证明域对齐关键

亮点 / 我学到了什么

  • 外观多样性 > 位姿多样性: 之前LENS尝试NeRF-W外观扰动但效果微弱,本文发现关键不在于扰动本身,而在于训练流程需要对抗训练来有效利用多样数据
  • 3DGS替代NeRF做数据引擎: 渲染速度快、质量高、外观可控——理想的APR数据增强工具
  • APR可以展现泛化能力: 通过足够多样的数据+有效的训练范式,APR不再只是"图像检索",可以泛化到训练未覆盖的位姿区域
  • 物理场景(自驾+日夜): RAP在这些传统APR失败的场景中表现出色,说明外观不变性训练的实际价值

局限性 / 可改进方向

  • 仍逊色于几何方法(SCR/PPR)的绝对精度
  • 大场景中度量尺度训练存在精度损失
  • APR不考虑相机内参,对测试分辨率变化敏感
  • 每场景需独立训练3DGS和APR网络
  • Heads场景(仅2序列)增强效果有限

与相关工作的对比

  • vs DFNet/PMNet: 仅做位姿增强不做外观增强,且没有域对齐机制;RAP通过外观感知3DGS+判别器显著超越
  • vs LENS: 也尝试了外观扰动但效果微弱——因为缺乏有效的训练范式来利用多样数据
  • vs SCR方法(ACE/GLACE): SCR在精度上仍然领先,但RAP+后优化(RAPref)可在7-Scenes上达到0.6cm/0.20°,接近SCR水平

与我的研究方向的关联

  • 3DGS作为数据增强引擎的思路可迁移到其他视觉任务
  • 对抗训练弥合域差距的范式适用于任何合成-真实训练场景
  • 20260317_diffusion_view_augment_3dgs idea高度相关——都利用3DGS合成多样视角来改善下游任务

评分

  • 新颖性: ⭐⭐⭐⭐ 外观多样性+对抗训练用于APR的思路新颖,但各组件非全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 4个数据集(室内/室外/驾驶/日夜)+充分消融+泛化性分析+效率对比
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,消融逐步添加组件的叙述很好
  • 对我的价值: ⭐⭐⭐⭐⭐ 3DGS数据增强+域适应训练的范式对多个方向都有启发