Adversarial Exploitation of Data Diversity Improves Visual Localization¶

会议: ICCV 2025
arXiv: 2412.00138
代码: https://ai4ce.github.io/RAP
领域: 3D视觉 / 视觉定位 / 数据增强
关键词: 绝对位姿回归(APR), 3DGS数据增强, 对抗判别器, 外观多样性, 去模糊

一句话总结¶

提出RAP（Robust Absolute Pose regression）——基于外观感知3DGS的双分支联合训练框架，通过对抗判别器弥合合成-真实域差距+外观/位姿增强数据作为额外监督，在Cambridge Landmarks上平移/旋转误差分别降低38-50%/41-44%，在日夜场景和驾驶场景中表现尤为突出。

背景与动机¶

APR方法虽然推理速度快，但被认为是在做"图像级记忆"——只能检索训练时见过的位姿。现有方法用NeRF合成更多视角来增强训练，但忽略了外观多样性（光照、天气变化），且合成图像的伪影导致域差距，简单增加数据并不能显著提升。核心假设：外观变化是APR泛化的关键，而以往训练流程未能有效利用多样数据。

核心问题¶

如何充分利用外观多样的合成数据来提升APR的泛化能力？需要解决：(1)高效生成可控外观变化的合成图像 (2)弥合合成-真实图像的域差距 (3)设计有效利用多样数据的训练范式。

方法详解¶

整体框架¶

多序列RGB图像 → 训练外观感知3DGS（含去模糊）→ 渲染多样外观+多视角合成图像 → 双分支训练：Branch-1用真实+合成图对训位姿回归+对抗判别器对齐特征；Branch-2动态生成随机扰动位姿/外观图像作额外监督 → Pose Transformer回归6DoF位姿 → 可选：RAPref用MASt3R匹配+RANSAC-PnP后优化

关键设计¶

外观感知3DGS: 基于GS-W的方案，为每个Gaussian学习外观特征E（通过可学习采样器S从图像提取），结合混合权重ω控制动态外观。支持连续插值不同光照/天气条件。同时整合Deblur-GS的运动去模糊，对运动模糊的视频数据渲染更清晰边缘。
对抗判别器弥合域差距: 特征级对抗训练（LSGAN风格）——判别器区分真实/合成图像的特征，特征提取器（生成器）学习欺骗判别器。通过调整层(Adj)对齐通道维度。推理时丢弃判别器，零额外开销。
Pose Transformer架构: 用EfficientNet-B0提取多尺度特征 → 添加可学习的translation/rotation token → 6层Multi-Head Self-Attention → 回归头输出3D平移+6D旋转（连续表示）。比CNN回归头更好地建模长程依赖。

损失函数 / 训练策略¶

L_total = β₁·L_pose1 + β₂·L_pose2 + β₃·(L_Gen + L_Dis)
β₁=β₂=1, β₃=0.7
Branch-2每20个epoch在线生成新数据（位姿扰动+外观扰动）
位姿扰动：室内δt=20cm/δr=10°，室外δt=150cm/δr=4°
早停机制(patience=200), FP16训练

实验关键数据¶

Cambridge Landmarks（室外，纯APR）¶

方法	平均平移(cm)↓	平均旋转(°)↓
DFNet	119	2.90
PMNet	90	2.27
RAP (本文)	56	1.28

RAP平移误差降低38%（vs PMNet），旋转误差降低44%

7-Scenes（室内，纯APR, SfM GT）¶

方法	平均平移(cm)↓	平均旋转(°)↓
DFNet	12	3.71
PMNet	10	3.24
RAP	5	1.90

平移误差降低50%，旋转误差降低41%

MARS驾驶场景¶

方法	平均平移(cm)↓	平均旋转(°)↓
PoseNet	121	1.67
RAP	28	0.60

Aachen Day-Night（极端光照变化）¶

PoseNet: 217 unit / 74.30°
RAP: 130 unit / 13.70°（旋转误差降低81%）

推理效率¶

RAP: 279 FPS（torch.compile + AMP, RTX 4060笔记本）
RAPref后优化: 0.5s/帧

消融实验要点（Shop场景）¶

配置	平移(cm)↓	旋转(°)↓
PoseNet基线	174	5.45
+EfficientNet-B0	103	4.64
+位姿增强	75	3.52
+外观增强	60	3.14
+ConvNet解码	52	2.51
+Transformer	40	1.98
+判别器(完整RAP)	33	1.48

每个组件都有贡献，判别器从40→33cm，证明域对齐关键

亮点 / 我学到了什么¶

外观多样性 > 位姿多样性: 之前LENS尝试NeRF-W外观扰动但效果微弱，本文发现关键不在于扰动本身，而在于训练流程需要对抗训练来有效利用多样数据
3DGS替代NeRF做数据引擎: 渲染速度快、质量高、外观可控——理想的APR数据增强工具
APR可以展现泛化能力: 通过足够多样的数据+有效的训练范式，APR不再只是"图像检索"，可以泛化到训练未覆盖的位姿区域
物理场景（自驾+日夜）: RAP在这些传统APR失败的场景中表现出色，说明外观不变性训练的实际价值

局限性 / 可改进方向¶

仍逊色于几何方法(SCR/PPR)的绝对精度
大场景中度量尺度训练存在精度损失
APR不考虑相机内参，对测试分辨率变化敏感
每场景需独立训练3DGS和APR网络
Heads场景（仅2序列）增强效果有限

与相关工作的对比¶

vs DFNet/PMNet: 仅做位姿增强不做外观增强，且没有域对齐机制；RAP通过外观感知3DGS+判别器显著超越
vs LENS: 也尝试了外观扰动但效果微弱——因为缺乏有效的训练范式来利用多样数据
vs SCR方法(ACE/GLACE): SCR在精度上仍然领先，但RAP+后优化(RAPref)可在7-Scenes上达到0.6cm/0.20°，接近SCR水平

与我的研究方向的关联¶

3DGS作为数据增强引擎的思路可迁移到其他视觉任务
对抗训练弥合域差距的范式适用于任何合成-真实训练场景
与 20260317_diffusion_view_augment_3dgs idea高度相关——都利用3DGS合成多样视角来改善下游任务

评分¶

新颖性: ⭐⭐⭐⭐ 外观多样性+对抗训练用于APR的思路新颖，但各组件非全新
实验充分度: ⭐⭐⭐⭐⭐ 4个数据集（室内/室外/驾驶/日夜）+充分消融+泛化性分析+效率对比
写作质量: ⭐⭐⭐⭐ 论文结构清晰，消融逐步添加组件的叙述很好
对我的价值: ⭐⭐⭐⭐⭐ 3DGS数据增强+域适应训练的范式对多个方向都有启发