跳转至

ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation

会议: ECCV 2024 (Oral)
arXiv: 2408.09042
代码: 无公开链接
领域: 3D视觉
关键词: 相机位姿估计, 稀疏视角, 生成-判别框架, 多假设, 对称性歧义

一句话总结

ADen提出生成器-判别器框架统一位姿回归和概率位姿估计:生成器输出多个6DoF位姿假设来建模多模态分布(处理对称歧义),判别器选出最佳假设,在稀疏视角位姿估计上同时实现了更高精度和更低运行时间。

背景与动机

从稀疏视角图像恢复相机位姿是3D视觉的基础任务。现有方法分两类,各有缺陷: 1. 直接回归: 输出单一6DoF位姿——但当物体具有对称性时(如圆柱体正反面外观相同),单模态假设不成立,导致次优解 2. 概率方法: 建模旋转的概率分布——可以处理对称歧义,但需要在整个SO(3)空间上均匀采样,精度和效率的trade-off不可避免

核心问题

如何在稀疏视角下既能处理对称歧义(多模态分布),又能高效地获得高精度的位姿估计?

方法详解

整体框架

Generator-Discriminator双模块: - Generator: 输入图像对,输出K个6DoF位姿假设(K组旋转+平移),代表位姿分布的多个模态 - Discriminator: 对每个假设评分,选择最能解释观测数据的那个

关键设计

  1. 多假设生成器: 不像回归方法只输出一个位姿,而是输出K个候选位姿。这些假设自然覆盖对称/歧义区域。类比mixture of experts——每个假设"专精"于一种可能的位姿模态。

  2. 判别器选最优: 给定K个假设,判别器评估每个假设与图像对的一致性(如渲染一致性或特征匹配得分),选择得分最高的作为最终预测。训练时用winner-takes-all策略——只有最接近GT的假设获得梯度更新。

  3. 自适应密度: 不需要在整个SO(3)空间均匀采样(如概率方法那样需要大量采样点),生成器学会将假设集中在高概率区域。这相当于用K个样本自适应地表示位姿的概率密度函数。

损失函数 / 训练策略

  • Winner-takes-all训练:K个假设中只有最接近GT的获得loss反馈
  • 判别器学习评估假设质量

实验关键数据

  • 在CO3D等数据集上显著优于概率方法(如RelPose++)和回归方法
  • 精度更高同时运行时间更低(不需要在SO(3)上暴力采样)
  • ECCV 2024 Oral论文

消融实验要点

  • K的选择:适度增加K提升精度,过多则冗余
  • 判别器的质量直接影响最终性能
  • 对称物体上优势最明显

亮点 / 我学到了什么

  • Generator + Discriminator统一回归和概率方法的思路非常优雅——用生成器的多样性替代全空间均匀采样,用判别器的选择替代概率积分
  • Winner-takes-all训练是处理多假设学习的标准方法,避免模式坍缩
  • 这个框架可以作为任何"输出可能有多解"问题的通用方案

局限性 / 可改进方向

  • 假设数量K是固定的,不根据输入复杂度自适应
  • 判别器质量是瓶颈——如果判别器无法正确区分好坏假设则失效
  • 主要在物体级位姿估计上验证,场景级的验证有限

与相关工作的对比

  • RelPose/RelPose++: 回归或概率方法;ADen统一两者
  • PoseDiffusion: 用扩散模型建模位姿分布;ADen用GAN式generator更高效
  • BARF/GNeRF: 联合优化位姿+NeRF;ADen是前馈预测,更快

与我的研究方向的关联

  • 多假设+判别器选择的框架可迁移到其他存在多解歧义的视觉任务
  • 与3D Congealing(之前笔记)的位姿估计部分有关联
  • 目前ideas/中无直接关联idea

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Oral论文,统一回归和概率方法的框架设计优雅,理论动机清晰
  • 实验充分度: ⭐⭐⭐⭐ 与多种SOTA比较,消融全面
  • 写作质量: ⭐⭐⭐⭐⭐ 问题分析深入,框架动机自然
  • 对我的价值: ⭐⭐⭐⭐ 多假设+判别的通用框架思路值得借鉴