Orient Anything V2: Unifying Orientation and Rotation Understanding¶

会议: NeurIPS 2025
arXiv: 2601.05573
代码: 有 (https://orient-anythingv2.github.io/)
领域: 计算机视觉 / 3D理解
关键词: 方向估计, 旋转对称性, 6DoF位姿估计, 合成数据, 基础模型

一句话总结¶

Orient Anything V2 通过可扩展的合成数据引擎、对称感知的周期分布目标和多帧架构，统一了物体3D方向和旋转理解，在方向估计、6DoF位姿估计和对称性识别三个任务上均达到 zero-shot SOTA。

研究背景与动机¶

从图像中估计物体的3D方向是计算机视觉的基础任务，在机器人操作、自动驾驶、AR/VR 等领域至关重要。

Orient Anything V1 的局限：

忽略旋转对称性：V1 基于"唯一正面"定义方向，对于具有多个有效正面的对称物体（如杯子、椅子），只能将其归类为"无正面"

不支持相对旋转估计：通过独立的绝对方向预测来推断相对旋转会导致严重的误差累积

数据质量问题：依赖的 Objaverse 真实3D资产存在类别不平衡、纹理质量低、姿态固定等问题

这些局限直接限制了模型在下游任务（6DoF 位姿估计、机器人抓取等）中的应用。

方法详解¶

整体框架¶

Orient Anything V2 从数据和模型两个维度进行升级：

数据侧：构建可扩展的合成数据引擎，生成 60 万高质量3D资产（比 V1 大 12 倍），并配备鲁棒的方向标注系统。

模型侧：引入对称感知的周期分布拟合目标，扩展多帧输入架构以支持相对旋转估计。基于 VGGT（12亿参数的前馈Transformer）初始化。

关键设计¶

1. 合成3D资产生成¶

采用结构化流水线：Class Tag → Caption → Image → 3D Mesh

ImageNet-21K 类别标签 → Qwen-2.5 生成丰富描述
FLUX.1-Dev 生成图像（增加位置描述促进3D结构）
Hunyuan-3D-2.0 生成高质量3D网格
最终生成 60 万资产，每个类别约 30 个，覆盖完整几何和丰富纹理

2. 鲁棒标注系统¶

多视角伪标签集成：先训练改进的 V1 模型作为标注器，对每个3D资产的多个渲染视角生成伪标签，投影回3D世界坐标系。对水平面上的方位角分布拟合周期高斯分布：

\[(\bar{\varphi}, \bar{\alpha}, \bar{\sigma}) = \arg\min_{\varphi, \alpha, \sigma} \sum_{i=0}^{359} \left(\mathbf{P}_{\text{pseudo}}(i) - \frac{\exp\left(\frac{\cos(\alpha(i-\varphi))}{\sigma^2}\right)}{2\pi I_0(1/\sigma^2)}\right)^2\]

其中 \(\bar{\alpha}\) 表示周期性（旋转对称性），\(\bar{\varphi}\) 表示主方位角方向。

跨资产一致性校准：假设同类别物体应具有相同旋转对称性，检查类别内标注一致性，仅约 15% 的类别需要人工审核。

3. 对称感知周期分布¶

训练目标从 V1 的单峰分布扩展为周期分布：

\[\mathbf{P}_{\text{azi}}(i|\bar{\varphi}, \bar{\alpha}, \sigma) = \frac{\exp\left(\frac{\cos(\bar{\alpha}(i-\bar{\varphi}))}{\sigma^2}\right)}{2\pi I_0(1/\sigma^2)}\]

该设计自然替代了 V1 额外的方向置信度预测，不同旋转对称性直接从预测概率分布中获取。

4. 多帧相对旋转估计¶

使用 DINOv2 编码每帧图像为 K 个 token，加上可学习 token，所有帧的 token 通过统一 Transformer 块联合编码。第一帧的可学习 token 预测绝对方向，后续帧预测相对旋转。

损失函数 / 训练策略¶

损失函数：Binary Cross-Entropy (BCE) 损失拟合目标方向/旋转分布
初始化：VGGT（12亿参数，3D几何任务预训练）
训练：20k 迭代，cosine 学习率调度，初始学习率 1e-3
数据增强：随机 patch masking 模拟真实遮挡
批大小：有效批大小 48，每个样本随机采样 1-2 帧
对称性限制：仅考虑 \(\{0, 1, 2, 4\}\) 四种旋转对称性（覆盖绝大多数物体）

实验关键数据¶

主实验：Zero-shot 绝对方向估计¶

模型	SUN-RGBD Med↓	ARKitScenes Med↓	Pascal3D+ Med↓	Objectron Med↓	Ori_COCO Acc↑
Orient Anything V1	33.94	77.58	22.90	30.67	72.4
Orient Anything V2	26.00	36.48	15.02	22.62	86.4

V2 在所有数据集上显著优于 V1，ARKitScenes 上中位误差从 77.58° 降至 36.48°，Ori_COCO 准确率从 72.4% 提升至 86.4%。

Zero-shot 相对旋转估计（6DoF位姿）¶

模型	LINEMOD Med↓	YCB-Video Med↓	OnePose++ Med↓	OnePose Med↓
POPE (POPE采样, 平均14.85°)	15.73	13.94	6.27	2.16
V2 (POPE采样)	7.82	6.07	6.18	6.76
POPE (随机采样, 平均78.22°)	98.03	41.88	88.21	45.73
V2 (随机采样)	28.83	15.78	12.83	11.72

在大角度旋转（随机采样）下优势尤为显著：LINEMOD 上中位误差从 98.03° 降至 28.83°。基于特征匹配的方法在大旋转下失效，而 V2 通过整体语义理解保持鲁棒。

消融实验¶

行	资产类型	资产数	初始化	Objectron Med↓	LINEMOD Med↓ / Acc15↑	YCB Med↓ / Acc15↑
1	真实	40K	VGGT	25.05	10.70 / 69.8	15.49 / 72.5
2	合成	40K	VGGT	24.44	10.16 / 74.1	7.28 / 76.2
5	合成	600K	VGGT	22.62	7.82 / 89.7	6.07 / 86.4
7	合成	600K	None	62.08	16.54 / 45.3	13.93 / 52.2

关键发现¶

合成数据 vs 真实数据：等量合成数据在方向估计上与真实数据相当，但在旋转估计上显著更优（更丰富的纹理）
数据规模效应：旋转估计对数据规模更敏感（需要理解多样纹理和细粒度细节），600K 比 40K 在 LINEMOD Acc15 上从 74.1% 提升到 89.7%
预训练的重要性：无预训练的模型性能显著下降（Objectron Med 从 22.62° 升至 62.08°），VGGT（3D几何预训练）优于 DINOv2（语义预训练）
对称性识别：V2 在 Omni6DPose 上达到 65.2% 准确率，优于 GPT-4o（62.5%）和其他顶级 VLM

亮点与洞察¶

数据引擎的闭环设计：用 V1 模型的伪标签标注 → 多视角集成 → 跨资产校准，将模型预测能力反馈到数据构建中
对称性建模的优雅性：用周期分布自然统一了无正面、唯一正面和多正面物体的表示
方向与旋转的统一：利用绝对方向和相对旋转的内在耦合，实现知识共享和迁移
合成数据的有效性：首次证明合成3D资产在方向估计任务上可以替代真实资产，且纹理多样性使其在旋转估计上更优

局限与展望¶

低信息视角表现不佳：遮挡严重或信息极少的视角预测准确度下降
最多支持两帧输入：无法扩展到视频理解场景
仅考虑四种对称类型：\(\{0, 1, 2, 4\}\) 无法覆盖高阶旋转对称物体（如五角星）
测试数据集限制：现有测试集通常只提供一个 ground truth 方向，无法充分评估多方向预测能力

评分¶

新颖性：⭐⭐⭐⭐ — 对称感知分布和多帧架构设计新颖
理论贡献：⭐⭐⭐ — 更多是工程创新，理论深度有限
实验充分度：⭐⭐⭐⭐⭐ — 11 个 benchmark，全面的消融
实用价值：⭐⭐⭐⭐⭐ — 方向/旋转/对称性统一理解的基础模型
总体推荐：⭐⭐⭐⭐