Adversarial Exploitation of Data Diversity Improves Visual Localization¶
会议: ICCV 2025
arXiv: 2412.00138
代码: https://ai4ce.github.io/RAP
领域: 3D视觉 / 视觉定位 / 数据增强
关键词: 绝对位姿回归(APR), 3DGS数据增强, 对抗判别器, 外观多样性, 去模糊
一句话总结¶
提出RAP(Robust Absolute Pose regression)——基于外观感知3DGS的双分支联合训练框架,通过对抗判别器弥合合成-真实域差距+外观/位姿增强数据作为额外监督,在Cambridge Landmarks上平移/旋转误差分别降低38-50%/41-44%,在日夜场景和驾驶场景中表现尤为突出。
背景与动机¶
APR方法虽然推理速度快,但被认为是在做"图像级记忆"——只能检索训练时见过的位姿。现有方法用NeRF合成更多视角来增强训练,但忽略了外观多样性(光照、天气变化),且合成图像的伪影导致域差距,简单增加数据并不能显著提升。核心假设:外观变化是APR泛化的关键,而以往训练流程未能有效利用多样数据。
核心问题¶
如何充分利用外观多样的合成数据来提升APR的泛化能力?需要解决:(1)高效生成可控外观变化的合成图像 (2)弥合合成-真实图像的域差距 (3)设计有效利用多样数据的训练范式。
方法详解¶
整体框架¶
多序列RGB图像 → 训练外观感知3DGS(含去模糊)→ 渲染多样外观+多视角合成图像 → 双分支训练:Branch-1用真实+合成图对训位姿回归+对抗判别器对齐特征;Branch-2动态生成随机扰动位姿/外观图像作额外监督 → Pose Transformer回归6DoF位姿 → 可选:RAPref用MASt3R匹配+RANSAC-PnP后优化
关键设计¶
- 外观感知3DGS: 基于GS-W的方案,为每个Gaussian学习外观特征E(通过可学习采样器S从图像提取),结合混合权重ω控制动态外观。支持连续插值不同光照/天气条件。同时整合Deblur-GS的运动去模糊,对运动模糊的视频数据渲染更清晰边缘。
- 对抗判别器弥合域差距: 特征级对抗训练(LSGAN风格)——判别器区分真实/合成图像的特征,特征提取器(生成器)学习欺骗判别器。通过调整层(Adj)对齐通道维度。推理时丢弃判别器,零额外开销。
- Pose Transformer架构: 用EfficientNet-B0提取多尺度特征 → 添加可学习的translation/rotation token → 6层Multi-Head Self-Attention → 回归头输出3D平移+6D旋转(连续表示)。比CNN回归头更好地建模长程依赖。
损失函数 / 训练策略¶
- L_total = β₁·L_pose1 + β₂·L_pose2 + β₃·(L_Gen + L_Dis)
- β₁=β₂=1, β₃=0.7
- Branch-2每20个epoch在线生成新数据(位姿扰动+外观扰动)
- 位姿扰动:室内δt=20cm/δr=10°,室外δt=150cm/δr=4°
- 早停机制(patience=200), FP16训练
实验关键数据¶
Cambridge Landmarks(室外,纯APR)¶
| 方法 | 平均平移(cm)↓ | 平均旋转(°)↓ |
|---|---|---|
| DFNet | 119 | 2.90 |
| PMNet | 90 | 2.27 |
| RAP (本文) | 56 | 1.28 |
RAP平移误差降低38%(vs PMNet),旋转误差降低44%
7-Scenes(室内,纯APR, SfM GT)¶
| 方法 | 平均平移(cm)↓ | 平均旋转(°)↓ |
|---|---|---|
| DFNet | 12 | 3.71 |
| PMNet | 10 | 3.24 |
| RAP | 5 | 1.90 |
平移误差降低50%,旋转误差降低41%
MARS驾驶场景¶
| 方法 | 平均平移(cm)↓ | 平均旋转(°)↓ |
|---|---|---|
| PoseNet | 121 | 1.67 |
| RAP | 28 | 0.60 |
Aachen Day-Night(极端光照变化)¶
- PoseNet: 217 unit / 74.30°
- RAP: 130 unit / 13.70°(旋转误差降低81%)
推理效率¶
- RAP: 279 FPS(torch.compile + AMP, RTX 4060笔记本)
- RAPref后优化: 0.5s/帧
消融实验要点(Shop场景)¶
| 配置 | 平移(cm)↓ | 旋转(°)↓ |
|---|---|---|
| PoseNet基线 | 174 | 5.45 |
| +EfficientNet-B0 | 103 | 4.64 |
| +位姿增强 | 75 | 3.52 |
| +外观增强 | 60 | 3.14 |
| +ConvNet解码 | 52 | 2.51 |
| +Transformer | 40 | 1.98 |
| +判别器(完整RAP) | 33 | 1.48 |
每个组件都有贡献,判别器从40→33cm,证明域对齐关键
亮点 / 我学到了什么¶
- 外观多样性 > 位姿多样性: 之前LENS尝试NeRF-W外观扰动但效果微弱,本文发现关键不在于扰动本身,而在于训练流程需要对抗训练来有效利用多样数据
- 3DGS替代NeRF做数据引擎: 渲染速度快、质量高、外观可控——理想的APR数据增强工具
- APR可以展现泛化能力: 通过足够多样的数据+有效的训练范式,APR不再只是"图像检索",可以泛化到训练未覆盖的位姿区域
- 物理场景(自驾+日夜): RAP在这些传统APR失败的场景中表现出色,说明外观不变性训练的实际价值
局限性 / 可改进方向¶
- 仍逊色于几何方法(SCR/PPR)的绝对精度
- 大场景中度量尺度训练存在精度损失
- APR不考虑相机内参,对测试分辨率变化敏感
- 每场景需独立训练3DGS和APR网络
- Heads场景(仅2序列)增强效果有限
与相关工作的对比¶
- vs DFNet/PMNet: 仅做位姿增强不做外观增强,且没有域对齐机制;RAP通过外观感知3DGS+判别器显著超越
- vs LENS: 也尝试了外观扰动但效果微弱——因为缺乏有效的训练范式来利用多样数据
- vs SCR方法(ACE/GLACE): SCR在精度上仍然领先,但RAP+后优化(RAPref)可在7-Scenes上达到0.6cm/0.20°,接近SCR水平
与我的研究方向的关联¶
- 3DGS作为数据增强引擎的思路可迁移到其他视觉任务
- 对抗训练弥合域差距的范式适用于任何合成-真实训练场景
- 与 20260317_diffusion_view_augment_3dgs idea高度相关——都利用3DGS合成多样视角来改善下游任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 外观多样性+对抗训练用于APR的思路新颖,但各组件非全新
- 实验充分度: ⭐⭐⭐⭐⭐ 4个数据集(室内/室外/驾驶/日夜)+充分消融+泛化性分析+效率对比
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰,消融逐步添加组件的叙述很好
- 对我的价值: ⭐⭐⭐⭐⭐ 3DGS数据增强+域适应训练的范式对多个方向都有启发