跳转至

Adversarial Exploitation of Data Diversity Improves Visual Localization

会议: ICCV 2025
arXiv: 2412.00138
代码: https://ai4ce.github.io/RAP
领域: 视觉定位
关键词: 绝对姿态回归, 3D高斯溅射, 对抗训练, 数据增强, 外观多样性

一句话总结

提出RAP框架,通过外观可变的3DGS合成多样化训练数据,并引入对抗判别器弥合合成-真实域差距,使绝对姿态回归方法在多个数据集上大幅超越SOTA——室内平移/旋转误差降低50%/41%,室外降低38%/44%。

研究背景与动机

视觉定位(从查询图像估计6-DoF相机位姿)是自动驾驶、机器人和VR的基础能力。绝对姿态回归(APR)方法直接从图像回归姿态,推理快速且在稀疏视角、剧烈光照变化场景中有优势,但精度不如几何方法。

关键洞察来自Sattler等人的分析:APR本质上是在做基于图像的记忆化(memorization),即检索训练时见过的姿态。为改善这种记忆化,DFNet、LENS、PMNet等方法通过NeRF合成新视角加入训练。然而它们都忽略了外观多样性——LENS尝试过NeRF-W的外观扰动但发现效果甚微。

作者提出假设:不是外观增强无效,而是训练流水线未能有效利用多样化数据。合成图像中的伪影会干扰特征空间,需要专门的机制来弥合合成-真实域差距。

方法详解

整体框架

RAP包含三个组件:(1)外观可变的3DGS——高效渲染多样光照/天气条件下的合成图像;(2)Pose Transformer——Transformer架构的姿态回归器;(3)两支路联合训练——Branch-1通过对抗判别器对齐合成/真实特征,Branch-2在线合成新姿态+新外观的图像提供额外监督。

关键设计

  1. 外观可变的3DGS数据引擎:

    • 基于GS-W的方法,每个高斯点具有固有属性(位置 \(\bm{\mu}\)、球谐系数 \(\bm{\mathcal{Y}}\))和动态外观特征 \(\bm{\mathcal{E}}\)
    • 从输入图像提取特征,通过可学习采样器 \(\bm{\mathcal{S}}\) 分配给每个高斯点
    • 最终颜色通过MLP融合:\(\bm{\mathcal{C}} = \text{MLP}(\bm{\mu}, \bm{\mathcal{Y}}, \omega \bm{\mathcal{E}}, \theta)\),其中 \(\omega\) 是混合权重控制动态外观
    • 去模糊建模:受Deblur-GS启发,将运动模糊建模为场景运动的逆(高斯位置的SE(3)变换),沿线性轨迹采样时间步并混合
    • 设计动机:定位数据集常有运动模糊和外观变化,同时处理两者对渲染质量和定位精度都至关重要
  2. Pose Transformer姿态回归器:

    • 用EfficientNet-B0提取多层特征,第3/4层分别用于平移/旋转回归
    • 设计可学习的全局token(Trans和Rot),拼接到展平的特征序列后送入Transformer
    • 经多头自注意力处理后,只取处理后的全局token通过MLP回归头输出 \(\hat{\bm{t}}\)\(\hat{\bm{r}}\)
    • 设计动机:相比CNN回归头,Transformer能更好地建模长程依赖,避免细粒度局部特征引入的噪声
  3. 两支路联合训练范式:

    • Branch-1(特征对齐):对每张真实图像 \(\bm{I}\),用3DGS渲染相同位姿的合成图像 \(\bm{I}'\),两者同时做姿态回归+引入对抗判别器
      • 判别器目标:区分真实/合成特征
      • 生成器(特征提取器)目标:让合成特征骗过判别器
      • 采用LSGAN损失避免梯度消失:\(\mathcal{L}_{Dis} = \frac{1}{2}\mathbb{E}[(D(\text{Adj}(\mathcal{F}_t(\bm{I})))-1)^2] + \frac{1}{2}\mathbb{E}[D(\text{Adj}'(\mathcal{F}_t(\bm{I}')))^2]\)
    • Branch-2(渐进式数据合成):每20个epoch在线生成新的姿态扰动 + 随机外观混合权重的图像,作为额外训练样本
      • 室内:\(\delta t = 20\)cm, \(\delta r = 10°\);室外:\(\delta t = 150\)cm, \(\delta r = 4°\)
      • 当验证MSE和中位误差不再下降时停止合成
    • 总损失:\(\mathcal{L}_{total} = \beta_1 \mathcal{L}_{pose}^1 + \beta_2 \mathcal{L}_{pose}^2 + \beta_3 (\mathcal{L}_{Gen} + \mathcal{L}_{Dis})\)

训练策略

姿态回归用自适应权重平衡平移和旋转:\(\mathcal{L}_{pose} = \mathcal{L}_t \exp(-s_t) + s_t + \mathcal{L}_r \exp(-s_r) + s_r\),其中 \(s_t, s_r\) 为可学习参数。3DGS训练不对移动物体做遮罩。推理时仅使用姿态回归器,丢弃判别器和调整层。

实验关键数据

主实验

Cambridge Landmarks(室外)平移(cm)/旋转(°)中位误差

方法 College Hospital Shop Church 平均
DFNet 73/2.37 200/2.98 67/2.21 137/4.03 119/2.90
PMNet 68/1.97 103/1.31 58/2.10 133/3.73 90/2.27
RAP 52/0.90 87/1.21 33/1.48 53/1.52 56/1.28

7-Scenes(室内)平均误差

方法 平均平移(cm)/旋转(°)
PMNet 10/3.24
CoordiNet+LENS 9/3.07
RAP (SfM GT) 5/1.90
RAPref (SfM GT) 0.60/0.20

消融实验

配置 平移(cm)↓ 旋转(°)↓ 说明
I: VGG16 baseline 174 5.45 基线
II: EfficientNet-B0 103 4.64 更好的特征
III: +姿态增强 75 3.52 新视角有效
IV: +外观增强 60 3.14 外观多样性有效
V: +Conv解码器 52 2.51 更多参数
VI: +Transformer 40 1.98 长程依赖
VII: +判别器 33 1.48 域差距弥合

关键发现

  • MARS自动驾驶场景:在移动物体、光照变化、运动模糊挑战下,RAP平均误差28cm/0.60°,显著超过PoseNet的121cm/1.67°
  • Aachen日夜变换:RAP将旋转误差从75.99°降至13.70°,证明外观多样性在极端光照变化下至关重要——而ACE(104.50°)和GLACE(36.4°)等SCR方法在此场景下反而失败
  • 泛化能力验证:在St. George's Basilica实验中,即使测试集包含训练集完全未覆盖的区域,模型仍能合理预测位姿——表明APR开始展现出超越简单记忆化的泛化能力
  • RAPref结合一次渲染-匹配精炼后可将室内误差降至亚厘米级(0.60cm/0.20°)

亮点与洞察

  • 核心发现:外观增强之前在APR中失败不是因为外观多样性无用,而是训练流水线(缺乏域对齐)无法利用含伪影的合成数据
  • 对抗训练的妙用:不是用GAN生成图像,而是用判别器对齐特征空间——让回归器学到域不变的姿态特征
  • 打破了"APR只是在做图像检索"的认知——通过足够多样的合成数据,APR确实能在SE(3)流形上进行插值和一定程度的外推

局限与展望

  • SE(3)流形上的泛化有边界:当旋转扰动很大时(视觉内容完全不同),模型仍无法泛化
  • 3DGS训练未对移动物体做遮罩,在高动态场景中可能引入噪声
  • 渐进式数据合成策略的超参数(扰动范围、合成频率)需要针对不同场景手动调整
  • 未探索将外观增强推广到更多类型的环境变化(如季节、雾霾等)

相关工作与启发

  • DFNet和PMNet只做姿态增强,RAP增加外观增强+对抗训练——形成完整的"多样化数据利用"范式
  • GS-W的外观建模思路被巧妙用于数据增强引擎而非场景重建本身
  • 对抗判别器弥合域差距的策略可推广到其他使用合成数据训练的视觉任务

评分

  • 新颖性: ⭐⭐⭐⭐ 对抗训练弥合合成-真实域差距的思路在视觉定位中首次有效应用
  • 实验充分度: ⭐⭐⭐⭐⭐ 4个数据集(室内/室外/驾驶/日夜)+全面消融+泛化边界探索
  • 写作质量: ⭐⭐⭐⭐ 动机论述清晰,实验设计有说服力
  • 价值: ⭐⭐⭐⭐ 在APR方向上取得了大幅度提升,重新定义了数据增强对APR的作用

相关论文