Adversarial Exploitation of Data Diversity Improves Visual Localization¶

会议: ICCV 2025
arXiv: 2412.00138
代码: https://ai4ce.github.io/RAP
领域: 视觉定位
关键词: 绝对姿态回归, 3D高斯溅射, 对抗训练, 数据增强, 外观多样性

一句话总结¶

提出RAP框架，通过外观可变的3DGS合成多样化训练数据，并引入对抗判别器弥合合成-真实域差距，使绝对姿态回归方法在多个数据集上大幅超越SOTA——室内平移/旋转误差降低50%/41%，室外降低38%/44%。

研究背景与动机¶

视觉定位（从查询图像估计6-DoF相机位姿）是自动驾驶、机器人和VR的基础能力。绝对姿态回归（APR）方法直接从图像回归姿态，推理快速且在稀疏视角、剧烈光照变化场景中有优势，但精度不如几何方法。

关键洞察来自Sattler等人的分析：APR本质上是在做基于图像的记忆化（memorization），即检索训练时见过的姿态。为改善这种记忆化，DFNet、LENS、PMNet等方法通过NeRF合成新视角加入训练。然而它们都忽略了外观多样性——LENS尝试过NeRF-W的外观扰动但发现效果甚微。

作者提出假设：不是外观增强无效，而是训练流水线未能有效利用多样化数据。合成图像中的伪影会干扰特征空间，需要专门的机制来弥合合成-真实域差距。

方法详解¶

整体框架¶

RAP包含三个组件：（1）外观可变的3DGS——高效渲染多样光照/天气条件下的合成图像；（2）Pose Transformer——Transformer架构的姿态回归器；（3）两支路联合训练——Branch-1通过对抗判别器对齐合成/真实特征，Branch-2在线合成新姿态+新外观的图像提供额外监督。

关键设计¶

外观可变的3DGS数据引擎:
- 基于GS-W的方法，每个高斯点具有固有属性（位置 \(\bm{\mu}\)、球谐系数 \(\bm{\mathcal{Y}}\)）和动态外观特征 \(\bm{\mathcal{E}}\)
- 从输入图像提取特征，通过可学习采样器 \(\bm{\mathcal{S}}\) 分配给每个高斯点
- 最终颜色通过MLP融合：\(\bm{\mathcal{C}} = \text{MLP}(\bm{\mu}, \bm{\mathcal{Y}}, \omega \bm{\mathcal{E}}, \theta)\)，其中 \(\omega\) 是混合权重控制动态外观
- 去模糊建模：受Deblur-GS启发，将运动模糊建模为场景运动的逆（高斯位置的SE(3)变换），沿线性轨迹采样时间步并混合
- 设计动机：定位数据集常有运动模糊和外观变化，同时处理两者对渲染质量和定位精度都至关重要
Pose Transformer姿态回归器:
- 用EfficientNet-B0提取多层特征，第3/4层分别用于平移/旋转回归
- 设计可学习的全局token（Trans和Rot），拼接到展平的特征序列后送入Transformer
- 经多头自注意力处理后，只取处理后的全局token通过MLP回归头输出 \(\hat{\bm{t}}\) 和 \(\hat{\bm{r}}\)
- 设计动机：相比CNN回归头，Transformer能更好地建模长程依赖，避免细粒度局部特征引入的噪声
两支路联合训练范式:
- Branch-1（特征对齐）：对每张真实图像 \(\bm{I}\)，用3DGS渲染相同位姿的合成图像 \(\bm{I}'\)，两者同时做姿态回归+引入对抗判别器
  - 判别器目标：区分真实/合成特征
  - 生成器（特征提取器）目标：让合成特征骗过判别器
  - 采用LSGAN损失避免梯度消失：\(\mathcal{L}_{Dis} = \frac{1}{2}\mathbb{E}[(D(\text{Adj}(\mathcal{F}_t(\bm{I})))-1)^2] + \frac{1}{2}\mathbb{E}[D(\text{Adj}'(\mathcal{F}_t(\bm{I}')))^2]\)
- Branch-2（渐进式数据合成）：每20个epoch在线生成新的姿态扰动 + 随机外观混合权重的图像，作为额外训练样本
  - 室内：\(\delta t = 20\)cm, \(\delta r = 10°\)；室外：\(\delta t = 150\)cm, \(\delta r = 4°\)
  - 当验证MSE和中位误差不再下降时停止合成
- 总损失：\(\mathcal{L}_{total} = \beta_1 \mathcal{L}_{pose}^1 + \beta_2 \mathcal{L}_{pose}^2 + \beta_3 (\mathcal{L}_{Gen} + \mathcal{L}_{Dis})\)

训练策略¶

姿态回归用自适应权重平衡平移和旋转：\(\mathcal{L}_{pose} = \mathcal{L}_t \exp(-s_t) + s_t + \mathcal{L}_r \exp(-s_r) + s_r\)，其中 \(s_t, s_r\) 为可学习参数。3DGS训练不对移动物体做遮罩。推理时仅使用姿态回归器，丢弃判别器和调整层。

实验关键数据¶

主实验¶

Cambridge Landmarks（室外）平移(cm)/旋转(°)中位误差：

方法	College	Hospital	Shop	Church	平均
DFNet	73/2.37	200/2.98	67/2.21	137/4.03	119/2.90
PMNet	68/1.97	103/1.31	58/2.10	133/3.73	90/2.27
RAP	52/0.90	87/1.21	33/1.48	53/1.52	56/1.28

7-Scenes（室内）平均误差：

方法	平均平移(cm)/旋转(°)
PMNet	10/3.24
CoordiNet+LENS	9/3.07
RAP (SfM GT)	5/1.90
RAPref (SfM GT)	0.60/0.20

消融实验¶

配置	平移(cm)↓	旋转(°)↓	说明
I: VGG16 baseline	174	5.45	基线
II: EfficientNet-B0	103	4.64	更好的特征
III: +姿态增强	75	3.52	新视角有效
IV: +外观增强	60	3.14	外观多样性有效
V: +Conv解码器	52	2.51	更多参数
VI: +Transformer	40	1.98	长程依赖
VII: +判别器	33	1.48	域差距弥合

关键发现¶

MARS自动驾驶场景：在移动物体、光照变化、运动模糊挑战下，RAP平均误差28cm/0.60°，显著超过PoseNet的121cm/1.67°
Aachen日夜变换：RAP将旋转误差从75.99°降至13.70°，证明外观多样性在极端光照变化下至关重要——而ACE（104.50°）和GLACE（36.4°）等SCR方法在此场景下反而失败
泛化能力验证：在St. George's Basilica实验中，即使测试集包含训练集完全未覆盖的区域，模型仍能合理预测位姿——表明APR开始展现出超越简单记忆化的泛化能力
RAPref结合一次渲染-匹配精炼后可将室内误差降至亚厘米级（0.60cm/0.20°）

亮点与洞察¶

核心发现：外观增强之前在APR中失败不是因为外观多样性无用，而是训练流水线（缺乏域对齐）无法利用含伪影的合成数据
对抗训练的妙用：不是用GAN生成图像，而是用判别器对齐特征空间——让回归器学到域不变的姿态特征
打破了"APR只是在做图像检索"的认知——通过足够多样的合成数据，APR确实能在SE(3)流形上进行插值和一定程度的外推

局限与展望¶

SE(3)流形上的泛化有边界：当旋转扰动很大时（视觉内容完全不同），模型仍无法泛化
3DGS训练未对移动物体做遮罩，在高动态场景中可能引入噪声
渐进式数据合成策略的超参数（扰动范围、合成频率）需要针对不同场景手动调整
未探索将外观增强推广到更多类型的环境变化（如季节、雾霾等）

评分¶

新颖性: ⭐⭐⭐⭐ 对抗训练弥合合成-真实域差距的思路在视觉定位中首次有效应用
实验充分度: ⭐⭐⭐⭐⭐ 4个数据集（室内/室外/驾驶/日夜）+全面消融+泛化边界探索
写作质量: ⭐⭐⭐⭐ 动机论述清晰，实验设计有说服力
价值: ⭐⭐⭐⭐ 在APR方向上取得了大幅度提升，重新定义了数据增强对APR的作用