One2Any: One-Reference 6D Pose Estimation for Any Object¶

会议: CVPR 2025
arXiv: 2505.04109
代码: https://github.com/lmy1001/One2Any (有)
领域: 人体理解 / 6D 位姿估计
关键词: 单参考, 6D位姿, 条件生成, 参考物体坐标, VQVAE

一句话总结¶

提出 One2Any，仅需单张参考图像即可估计任意新物体的 6D 位姿——用参考物体坐标（ROC，以参考相机帧为基准而非规范坐标）编码参考姿态，通过 VQVAE+U-Net 条件生成密集 ROC 图，再用 Umeyama 算法恢复位姿，在 YCB-Video 上 93.7% ADD-S AUC，推理仅 0.09 秒。

研究背景与动机¶

领域现状：6D 物体位姿估计是机器人抓取和 AR 的关键。传统方法需要精确 CAD 模型或多视角参考图。近年的"无 CAD/少参考"方法（如 FoundationPose、Oryon）仍需要多视角几何或昂贵的在线推理。

现有痛点：（1）FoundationPose 推理 1 秒/帧（11× 慢于 One2Any）；（2）Oryon 需要视频序列而非单张参考；（3）NOCS（归一化物体坐标空间）要求物体有规范坐标定义——对新颖物体不可行。

核心矛盾：单张参考图信息极其有限（只有一个视角），但 6D 位姿需要理解物体的完整几何。

切入角度：放弃 NOCS 的规范坐标假设，改用参考相机帧作为坐标系——ROC 只需要参考图像本身就能定义，不需要任何关于物体几何的先验知识。

核心 idea：参考物体坐标（ROC）替代 NOCS + 条件生成密集坐标图 = 单参考任意物体 6D 位姿。

方法详解¶

关键设计¶

参考物体坐标（ROC）:
- 功能：以参考相机帧为坐标系定义物体表面坐标
- 核心思路：从参考图像的深度图和掩码生成物体的 3D 点云，直接用参考相机坐标系下的坐标作为 ROC。无需物体 CAD 模型或规范坐标
- 设计动机：消融显示 ROC 比直接预测旋转/平移高 6.5%（91.2% vs 84.7% ADD-S）
ROPE 编码器 + OPD 解码器:
- 功能：从参考图生成查询图的密集 ROC 图
- 核心思路：ROPE 编码器将参考图的 RGB+ROC+掩码编码为物体表示。OPD 解码器基于预训练 VQVAE + U-Net，以 ROPE 特征为条件通过交叉注意力生成查询图的 ROC 图
- 设计动机：条件生成比特征匹配更适合处理大视角差——可以"想象"未见过的物体表面
Umeyama 位姿恢复:
- 功能：从预测的 ROC 图和查询深度图恢复 6D 位姿
- 核心思路：将预测的 ROC 3D 点与查询图的实际 3D 点做 Umeyama 对齐
- 设计动机：经典几何方法，鲁棒且高效

损失函数 / 训练策略¶

Smooth L1 损失：\(\mathcal{L} = \frac{1}{N}\sum_{i,j} Q_M(i,j) E(i,j)\)，\(\beta=0.1\)。推理 0.09 秒/帧。

实验关键数据¶

主实验¶

数据集	One2Any	Oryon	FoundationPose
YCB ADD-S AUC	93.7%	13.3%	92.7%
Real275 AR	54.9%	46.5%	-
推理时间	0.09s	0.95s	1.0s

消融实验¶

配置	ADD-S AUC
直接预测旋转/平移	84.7%
ROC 表示	91.2%
RGB+Depth 输入	90.0%
RGB+ROC+Mask 输入	91.2%

关键发现¶

ROC 替代 NOCS 是关键：无需规范坐标，参考帧即可定义
极快推理：0.09 秒，适合实时机器人应用
Oryon 在单参考下崩溃：13.3% vs 93.7%——专为多视角设计的方法迁移失败

亮点与洞察¶

ROC 的简洁优雅——不需要任何物体先验知识，参考图自身就是坐标系定义
生成式 vs 判别式——用条件生成而非特征匹配处理大视角差，更鲁棒

局限与展望¶

需要 GT 深度和掩码
无纹理物体表现差（LINEMOD ape 仅 33.1%）
参考视角质量影响性能

评分¶

新颖性: ⭐⭐⭐⭐ ROC 替代 NOCS 的概念简洁有力
实验充分度: ⭐⭐⭐⭐⭐ Real275/YCB/LINEMOD/Toyota 多数据集
写作质量: ⭐⭐⭐⭐ 清晰
价值: ⭐⭐⭐⭐ 实用的单参考 6D 位姿方案