ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation¶

会议: ECCV 2024 (Oral)
arXiv: 2408.09042
代码: 无公开链接
领域: 3D视觉
关键词: 相机位姿估计, 稀疏视角, 生成-判别框架, 多假设, 对称性歧义

一句话总结¶

ADen提出生成器-判别器框架统一位姿回归和概率位姿估计：生成器输出多个6DoF位姿假设来建模多模态分布（处理对称歧义），判别器选出最佳假设，在稀疏视角位姿估计上同时实现了更高精度和更低运行时间。

背景与动机¶

从稀疏视角图像恢复相机位姿是3D视觉的基础任务。现有方法分两类，各有缺陷： 1. 直接回归: 输出单一6DoF位姿——但当物体具有对称性时（如圆柱体正反面外观相同），单模态假设不成立，导致次优解 2. 概率方法: 建模旋转的概率分布——可以处理对称歧义，但需要在整个SO(3)空间上均匀采样，精度和效率的trade-off不可避免

核心问题¶

如何在稀疏视角下既能处理对称歧义（多模态分布），又能高效地获得高精度的位姿估计？

方法详解¶

整体框架¶

Generator-Discriminator双模块： - Generator: 输入图像对，输出K个6DoF位姿假设（K组旋转+平移），代表位姿分布的多个模态 - Discriminator: 对每个假设评分，选择最能解释观测数据的那个

关键设计¶

多假设生成器: 不像回归方法只输出一个位姿，而是输出K个候选位姿。这些假设自然覆盖对称/歧义区域。类比mixture of experts——每个假设"专精"于一种可能的位姿模态。
判别器选最优: 给定K个假设，判别器评估每个假设与图像对的一致性（如渲染一致性或特征匹配得分），选择得分最高的作为最终预测。训练时用winner-takes-all策略——只有最接近GT的假设获得梯度更新。
自适应密度: 不需要在整个SO(3)空间均匀采样（如概率方法那样需要大量采样点），生成器学会将假设集中在高概率区域。这相当于用K个样本自适应地表示位姿的概率密度函数。

损失函数 / 训练策略¶

Winner-takes-all训练：K个假设中只有最接近GT的获得loss反馈
判别器学习评估假设质量

实验关键数据¶

在CO3D等数据集上显著优于概率方法(如RelPose++)和回归方法
精度更高同时运行时间更低（不需要在SO(3)上暴力采样）
ECCV 2024 Oral论文

消融实验要点¶

K的选择：适度增加K提升精度，过多则冗余
判别器的质量直接影响最终性能
对称物体上优势最明显

亮点 / 我学到了什么¶

Generator + Discriminator统一回归和概率方法的思路非常优雅——用生成器的多样性替代全空间均匀采样，用判别器的选择替代概率积分
Winner-takes-all训练是处理多假设学习的标准方法，避免模式坍缩
这个框架可以作为任何"输出可能有多解"问题的通用方案

局限性 / 可改进方向¶

假设数量K是固定的，不根据输入复杂度自适应
判别器质量是瓶颈——如果判别器无法正确区分好坏假设则失效
主要在物体级位姿估计上验证，场景级的验证有限

与相关工作的对比¶

RelPose/RelPose++: 回归或概率方法；ADen统一两者
PoseDiffusion: 用扩散模型建模位姿分布；ADen用GAN式generator更高效
BARF/GNeRF: 联合优化位姿+NeRF；ADen是前馈预测，更快

与我的研究方向的关联¶

多假设+判别器选择的框架可迁移到其他存在多解歧义的视觉任务
与3D Congealing(之前笔记)的位姿估计部分有关联
目前ideas/中无直接关联idea

评分¶

新颖性: ⭐⭐⭐⭐⭐ Oral论文，统一回归和概率方法的框架设计优雅，理论动机清晰
实验充分度: ⭐⭐⭐⭐ 与多种SOTA比较，消融全面
写作质量: ⭐⭐⭐⭐⭐ 问题分析深入，框架动机自然
对我的价值: ⭐⭐⭐⭐ 多假设+判别的通用框架思路值得借鉴