跳转至

Orient Anything V2: Unifying Orientation and Rotation Understanding

会议: NeurIPS 2025
arXiv: 2601.05573
代码: 有 (https://orient-anythingv2.github.io/)
领域: 计算机视觉 / 3D理解
关键词: 方向估计, 旋转对称性, 6DoF位姿估计, 合成数据, 基础模型

一句话总结

Orient Anything V2 通过可扩展的合成数据引擎、对称感知的周期分布目标和多帧架构,统一了物体3D方向和旋转理解,在方向估计、6DoF位姿估计和对称性识别三个任务上均达到 zero-shot SOTA。

研究背景与动机

从图像中估计物体的3D方向是计算机视觉的基础任务,在机器人操作、自动驾驶、AR/VR 等领域至关重要。

Orient Anything V1 的局限

忽略旋转对称性:V1 基于"唯一正面"定义方向,对于具有多个有效正面的对称物体(如杯子、椅子),只能将其归类为"无正面"

不支持相对旋转估计:通过独立的绝对方向预测来推断相对旋转会导致严重的误差累积

数据质量问题:依赖的 Objaverse 真实3D资产存在类别不平衡、纹理质量低、姿态固定等问题

这些局限直接限制了模型在下游任务(6DoF 位姿估计、机器人抓取等)中的应用。

方法详解

整体框架

Orient Anything V2 从数据模型两个维度进行升级:

数据侧:构建可扩展的合成数据引擎,生成 60 万高质量3D资产(比 V1 大 12 倍),并配备鲁棒的方向标注系统。

模型侧:引入对称感知的周期分布拟合目标,扩展多帧输入架构以支持相对旋转估计。基于 VGGT(12亿参数的前馈Transformer)初始化。

关键设计

1. 合成3D资产生成

采用结构化流水线:Class Tag → Caption → Image → 3D Mesh

  • ImageNet-21K 类别标签 → Qwen-2.5 生成丰富描述
  • FLUX.1-Dev 生成图像(增加位置描述促进3D结构)
  • Hunyuan-3D-2.0 生成高质量3D网格
  • 最终生成 60 万资产,每个类别约 30 个,覆盖完整几何和丰富纹理

2. 鲁棒标注系统

多视角伪标签集成:先训练改进的 V1 模型作为标注器,对每个3D资产的多个渲染视角生成伪标签,投影回3D世界坐标系。对水平面上的方位角分布拟合周期高斯分布:

\[(\bar{\varphi}, \bar{\alpha}, \bar{\sigma}) = \arg\min_{\varphi, \alpha, \sigma} \sum_{i=0}^{359} \left(\mathbf{P}_{\text{pseudo}}(i) - \frac{\exp\left(\frac{\cos(\alpha(i-\varphi))}{\sigma^2}\right)}{2\pi I_0(1/\sigma^2)}\right)^2\]

其中 \(\bar{\alpha}\) 表示周期性(旋转对称性),\(\bar{\varphi}\) 表示主方位角方向。

跨资产一致性校准:假设同类别物体应具有相同旋转对称性,检查类别内标注一致性,仅约 15% 的类别需要人工审核。

3. 对称感知周期分布

训练目标从 V1 的单峰分布扩展为周期分布:

\[\mathbf{P}_{\text{azi}}(i|\bar{\varphi}, \bar{\alpha}, \sigma) = \frac{\exp\left(\frac{\cos(\bar{\alpha}(i-\bar{\varphi}))}{\sigma^2}\right)}{2\pi I_0(1/\sigma^2)}\]

该设计自然替代了 V1 额外的方向置信度预测,不同旋转对称性直接从预测概率分布中获取。

4. 多帧相对旋转估计

使用 DINOv2 编码每帧图像为 K 个 token,加上可学习 token,所有帧的 token 通过统一 Transformer 块联合编码。第一帧的可学习 token 预测绝对方向,后续帧预测相对旋转。

损失函数 / 训练策略

  • 损失函数:Binary Cross-Entropy (BCE) 损失拟合目标方向/旋转分布
  • 初始化:VGGT(12亿参数,3D几何任务预训练)
  • 训练:20k 迭代,cosine 学习率调度,初始学习率 1e-3
  • 数据增强:随机 patch masking 模拟真实遮挡
  • 批大小:有效批大小 48,每个样本随机采样 1-2 帧
  • 对称性限制:仅考虑 \(\{0, 1, 2, 4\}\) 四种旋转对称性(覆盖绝大多数物体)

实验关键数据

主实验:Zero-shot 绝对方向估计

模型 SUN-RGBD Med↓ ARKitScenes Med↓ Pascal3D+ Med↓ Objectron Med↓ Ori_COCO Acc↑
Orient Anything V1 33.94 77.58 22.90 30.67 72.4
Orient Anything V2 26.00 36.48 15.02 22.62 86.4

V2 在所有数据集上显著优于 V1,ARKitScenes 上中位误差从 77.58° 降至 36.48°,Ori_COCO 准确率从 72.4% 提升至 86.4%。

Zero-shot 相对旋转估计(6DoF位姿)

模型 LINEMOD Med↓ YCB-Video Med↓ OnePose++ Med↓ OnePose Med↓
POPE (POPE采样, 平均14.85°) 15.73 13.94 6.27 2.16
V2 (POPE采样) 7.82 6.07 6.18 6.76
POPE (随机采样, 平均78.22°) 98.03 41.88 88.21 45.73
V2 (随机采样) 28.83 15.78 12.83 11.72

在大角度旋转(随机采样)下优势尤为显著:LINEMOD 上中位误差从 98.03° 降至 28.83°。基于特征匹配的方法在大旋转下失效,而 V2 通过整体语义理解保持鲁棒。

消融实验

资产类型 资产数 初始化 Objectron Med↓ LINEMOD Med↓ / Acc15↑ YCB Med↓ / Acc15↑
1 真实 40K VGGT 25.05 10.70 / 69.8 15.49 / 72.5
2 合成 40K VGGT 24.44 10.16 / 74.1 7.28 / 76.2
5 合成 600K VGGT 22.62 7.82 / 89.7 6.07 / 86.4
7 合成 600K None 62.08 16.54 / 45.3 13.93 / 52.2

关键发现

  1. 合成数据 vs 真实数据:等量合成数据在方向估计上与真实数据相当,但在旋转估计上显著更优(更丰富的纹理)
  2. 数据规模效应:旋转估计对数据规模更敏感(需要理解多样纹理和细粒度细节),600K 比 40K 在 LINEMOD Acc15 上从 74.1% 提升到 89.7%
  3. 预训练的重要性:无预训练的模型性能显著下降(Objectron Med 从 22.62° 升至 62.08°),VGGT(3D几何预训练)优于 DINOv2(语义预训练)
  4. 对称性识别:V2 在 Omni6DPose 上达到 65.2% 准确率,优于 GPT-4o(62.5%)和其他顶级 VLM

亮点与洞察

  • 数据引擎的闭环设计:用 V1 模型的伪标签标注 → 多视角集成 → 跨资产校准,将模型预测能力反馈到数据构建中
  • 对称性建模的优雅性:用周期分布自然统一了无正面、唯一正面和多正面物体的表示
  • 方向与旋转的统一:利用绝对方向和相对旋转的内在耦合,实现知识共享和迁移
  • 合成数据的有效性:首次证明合成3D资产在方向估计任务上可以替代真实资产,且纹理多样性使其在旋转估计上更优

局限与展望

  1. 低信息视角表现不佳:遮挡严重或信息极少的视角预测准确度下降
  2. 最多支持两帧输入:无法扩展到视频理解场景
  3. 仅考虑四种对称类型\(\{0, 1, 2, 4\}\) 无法覆盖高阶旋转对称物体(如五角星)
  4. 测试数据集限制:现有测试集通常只提供一个 ground truth 方向,无法充分评估多方向预测能力

相关工作与启发

  • VGGT 的重用:将 VGGT 的 "camera" token 重新用于方向/旋转预测,利用相机位姿与物体旋转的相关性
  • 合成数据扩展范式:Class Tag → Caption → Image → 3D Mesh 的流水线可推广到其他3D理解任务
  • 从 Bloom Filter 到 CMS 的类比:V1→V2 的演进路线可启发其他基础模型的迭代升级

评分

  • 新颖性:⭐⭐⭐⭐ — 对称感知分布和多帧架构设计新颖
  • 理论贡献:⭐⭐⭐ — 更多是工程创新,理论深度有限
  • 实验充分度:⭐⭐⭐⭐⭐ — 11 个 benchmark,全面的消融
  • 实用价值:⭐⭐⭐⭐⭐ — 方向/旋转/对称性统一理解的基础模型
  • 总体推荐:⭐⭐⭐⭐

相关论文