Orient Anything V2: Unifying Orientation and Rotation Understanding¶
会议: NeurIPS 2025
arXiv: 2601.05573
代码: 有 (https://orient-anythingv2.github.io/)
领域: 计算机视觉 / 3D理解
关键词: 方向估计, 旋转对称性, 6DoF位姿估计, 合成数据, 基础模型
一句话总结¶
Orient Anything V2 通过可扩展的合成数据引擎、对称感知的周期分布目标和多帧架构,统一了物体3D方向和旋转理解,在方向估计、6DoF位姿估计和对称性识别三个任务上均达到 zero-shot SOTA。
研究背景与动机¶
从图像中估计物体的3D方向是计算机视觉的基础任务,在机器人操作、自动驾驶、AR/VR 等领域至关重要。
Orient Anything V1 的局限:
忽略旋转对称性:V1 基于"唯一正面"定义方向,对于具有多个有效正面的对称物体(如杯子、椅子),只能将其归类为"无正面"
不支持相对旋转估计:通过独立的绝对方向预测来推断相对旋转会导致严重的误差累积
数据质量问题:依赖的 Objaverse 真实3D资产存在类别不平衡、纹理质量低、姿态固定等问题
这些局限直接限制了模型在下游任务(6DoF 位姿估计、机器人抓取等)中的应用。
方法详解¶
整体框架¶
Orient Anything V2 从数据和模型两个维度进行升级:
数据侧:构建可扩展的合成数据引擎,生成 60 万高质量3D资产(比 V1 大 12 倍),并配备鲁棒的方向标注系统。
模型侧:引入对称感知的周期分布拟合目标,扩展多帧输入架构以支持相对旋转估计。基于 VGGT(12亿参数的前馈Transformer)初始化。
关键设计¶
1. 合成3D资产生成¶
采用结构化流水线:Class Tag → Caption → Image → 3D Mesh
- ImageNet-21K 类别标签 → Qwen-2.5 生成丰富描述
- FLUX.1-Dev 生成图像(增加位置描述促进3D结构)
- Hunyuan-3D-2.0 生成高质量3D网格
- 最终生成 60 万资产,每个类别约 30 个,覆盖完整几何和丰富纹理
2. 鲁棒标注系统¶
多视角伪标签集成:先训练改进的 V1 模型作为标注器,对每个3D资产的多个渲染视角生成伪标签,投影回3D世界坐标系。对水平面上的方位角分布拟合周期高斯分布:
其中 \(\bar{\alpha}\) 表示周期性(旋转对称性),\(\bar{\varphi}\) 表示主方位角方向。
跨资产一致性校准:假设同类别物体应具有相同旋转对称性,检查类别内标注一致性,仅约 15% 的类别需要人工审核。
3. 对称感知周期分布¶
训练目标从 V1 的单峰分布扩展为周期分布:
该设计自然替代了 V1 额外的方向置信度预测,不同旋转对称性直接从预测概率分布中获取。
4. 多帧相对旋转估计¶
使用 DINOv2 编码每帧图像为 K 个 token,加上可学习 token,所有帧的 token 通过统一 Transformer 块联合编码。第一帧的可学习 token 预测绝对方向,后续帧预测相对旋转。
损失函数 / 训练策略¶
- 损失函数:Binary Cross-Entropy (BCE) 损失拟合目标方向/旋转分布
- 初始化:VGGT(12亿参数,3D几何任务预训练)
- 训练:20k 迭代,cosine 学习率调度,初始学习率 1e-3
- 数据增强:随机 patch masking 模拟真实遮挡
- 批大小:有效批大小 48,每个样本随机采样 1-2 帧
- 对称性限制:仅考虑 \(\{0, 1, 2, 4\}\) 四种旋转对称性(覆盖绝大多数物体)
实验关键数据¶
主实验:Zero-shot 绝对方向估计¶
| 模型 | SUN-RGBD Med↓ | ARKitScenes Med↓ | Pascal3D+ Med↓ | Objectron Med↓ | Ori_COCO Acc↑ |
|---|---|---|---|---|---|
| Orient Anything V1 | 33.94 | 77.58 | 22.90 | 30.67 | 72.4 |
| Orient Anything V2 | 26.00 | 36.48 | 15.02 | 22.62 | 86.4 |
V2 在所有数据集上显著优于 V1,ARKitScenes 上中位误差从 77.58° 降至 36.48°,Ori_COCO 准确率从 72.4% 提升至 86.4%。
Zero-shot 相对旋转估计(6DoF位姿)¶
| 模型 | LINEMOD Med↓ | YCB-Video Med↓ | OnePose++ Med↓ | OnePose Med↓ |
|---|---|---|---|---|
| POPE (POPE采样, 平均14.85°) | 15.73 | 13.94 | 6.27 | 2.16 |
| V2 (POPE采样) | 7.82 | 6.07 | 6.18 | 6.76 |
| POPE (随机采样, 平均78.22°) | 98.03 | 41.88 | 88.21 | 45.73 |
| V2 (随机采样) | 28.83 | 15.78 | 12.83 | 11.72 |
在大角度旋转(随机采样)下优势尤为显著:LINEMOD 上中位误差从 98.03° 降至 28.83°。基于特征匹配的方法在大旋转下失效,而 V2 通过整体语义理解保持鲁棒。
消融实验¶
| 行 | 资产类型 | 资产数 | 初始化 | Objectron Med↓ | LINEMOD Med↓ / Acc15↑ | YCB Med↓ / Acc15↑ |
|---|---|---|---|---|---|---|
| 1 | 真实 | 40K | VGGT | 25.05 | 10.70 / 69.8 | 15.49 / 72.5 |
| 2 | 合成 | 40K | VGGT | 24.44 | 10.16 / 74.1 | 7.28 / 76.2 |
| 5 | 合成 | 600K | VGGT | 22.62 | 7.82 / 89.7 | 6.07 / 86.4 |
| 7 | 合成 | 600K | None | 62.08 | 16.54 / 45.3 | 13.93 / 52.2 |
关键发现¶
- 合成数据 vs 真实数据:等量合成数据在方向估计上与真实数据相当,但在旋转估计上显著更优(更丰富的纹理)
- 数据规模效应:旋转估计对数据规模更敏感(需要理解多样纹理和细粒度细节),600K 比 40K 在 LINEMOD Acc15 上从 74.1% 提升到 89.7%
- 预训练的重要性:无预训练的模型性能显著下降(Objectron Med 从 22.62° 升至 62.08°),VGGT(3D几何预训练)优于 DINOv2(语义预训练)
- 对称性识别:V2 在 Omni6DPose 上达到 65.2% 准确率,优于 GPT-4o(62.5%)和其他顶级 VLM
亮点与洞察¶
- 数据引擎的闭环设计:用 V1 模型的伪标签标注 → 多视角集成 → 跨资产校准,将模型预测能力反馈到数据构建中
- 对称性建模的优雅性:用周期分布自然统一了无正面、唯一正面和多正面物体的表示
- 方向与旋转的统一:利用绝对方向和相对旋转的内在耦合,实现知识共享和迁移
- 合成数据的有效性:首次证明合成3D资产在方向估计任务上可以替代真实资产,且纹理多样性使其在旋转估计上更优
局限与展望¶
- 低信息视角表现不佳:遮挡严重或信息极少的视角预测准确度下降
- 最多支持两帧输入:无法扩展到视频理解场景
- 仅考虑四种对称类型:\(\{0, 1, 2, 4\}\) 无法覆盖高阶旋转对称物体(如五角星)
- 测试数据集限制:现有测试集通常只提供一个 ground truth 方向,无法充分评估多方向预测能力
相关工作与启发¶
- VGGT 的重用:将 VGGT 的 "camera" token 重新用于方向/旋转预测,利用相机位姿与物体旋转的相关性
- 合成数据扩展范式:Class Tag → Caption → Image → 3D Mesh 的流水线可推广到其他3D理解任务
- 从 Bloom Filter 到 CMS 的类比:V1→V2 的演进路线可启发其他基础模型的迭代升级
评分¶
- 新颖性:⭐⭐⭐⭐ — 对称感知分布和多帧架构设计新颖
- 理论贡献:⭐⭐⭐ — 更多是工程创新,理论深度有限
- 实验充分度:⭐⭐⭐⭐⭐ — 11 个 benchmark,全面的消融
- 实用价值:⭐⭐⭐⭐⭐ — 方向/旋转/对称性统一理解的基础模型
- 总体推荐:⭐⭐⭐⭐
相关论文¶
- [NeurIPS 2025] Kuramoto Orientation Diffusion Models
- [CVPR 2025] CustAny: Customizing Anything from A Single Example
- [NeurIPS 2025] Co-Reinforcement Learning for Unified Multimodal Understanding and Generation
- [NeurIPS 2025] Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Models
- [CVPR 2025] Uni-Renderer: Unifying Rendering and Inverse Rendering via Dual Stream Diffusion