跳转至

Orientation Matters: Making 3D Generative Models Orientation-Aligned

会议: NeurIPS 2025
arXiv: 2506.08640
代码: 项目主页
领域: 3D视觉
关键词: 3D生成, 朝向对齐, 数据集构建, Objaverse, 姿态估计

一句话总结

提出朝向对齐3D物体生成任务,构建了跨1008个类别14832个朝向对齐3D模型的Objaverse-OA数据集,通过微调Trellis和Wonder3D两种主流3D生成框架实现朝向对齐的物体生成,并展示零样本朝向估计和箭头旋转操控两个下游应用。

研究背景与动机

人类能直觉地从单张图像感知物体的形状和朝向(object constancy),但现有3D生成模型生成的3D物体朝向混乱——椅子可能朝各个方向、杯子可能倾倒、车辆可能错位。这源于训练数据(如Objaverse)中3D模型朝向的不一致性。

朝向不一致的后果: 1. 无法直接用于analysis-by-synthesis范式的姿态估计 2. 在AR/VR中放置物体需要繁琐的手动朝向调整 3. 下游应用(如机器人操作、场景编辑)需要一致的canonical坐标系

现有的替代方案及其局限: - 后处理对齐:先生成再用PCA/VLM/Orient Anything估计朝向旋转——但PCA无法区分主轴方向、VLM对无明显正面特征的物体识别困难、Orient Anything精度有限 - 类别级姿态估计:需要大量人工标注的朝向对齐数据集,且限于少量类别(ImageNet3D仅200类)

本文的核心idea:直接微调3D生成模型使其输出朝向对齐的物体——需要一个足够多样的朝向对齐数据集作为基础。为此构建Objaverse-OA(14832模型×1008类别),规模远超现有数据集。

方法详解

整体框架

Objaverse-OA数据集构建(VLM预处理+人工矫正)→ 微调3D生成模型(Trellis-OA / Wonder3D-OA)→ 下游应用(零样本朝向估计 / 箭头旋转操控)

关键设计

  1. Objaverse-OA数据集构建

VLM预处理:从Objaverse-LVIS的46219个模型出发,每个模型渲染4个正交视图(前/后/左/右),用Gemini-2.0识别正面视图并旋转对齐。成功识别20664个,但VLM存在三类典型错误: - 棍状物体(如叉子、钥匙)——roll/pitch未对齐 - 窄/薄物体(如鱼、自行车)——VLM仅靠正面特征判断,缺乏侧视推理 - 正面模糊物体(如茶壶、灭火器)——朝向定义本身有歧义

人工矫正:约600个类别的物体需要人工用Blender矫正。对于歧义物体参考ImageNet3D的定义规范。低质量几何和多物体场景被过滤。

  1. Trellis-OA(3D VAE生成模型微调)

Trellis包含稀疏结构生成器\(\mathcal{G}_S\)、结构化潜码生成器\(\mathcal{G}_L\)和3D解码器\(\mathcal{D}\)三个模块。

关键发现:仅需微调稀疏结构生成器\(\mathcal{G}_S\)即可实现朝向对齐。原因是Trellis本身生成的物体姿态在四个正交方向中随机采样,而对齐后的姿态分布在此范围内——因此\(\mathcal{G}_L\)\(\mathcal{D}\)不需要额外微调。

训练:batch size 64,30000步,8×A100约10小时。

  1. Wonder3D-OA(多视图扩散模型微调)

核心改动: - 固定相机设置:渲染6个canonical视图(前/前左/前右/左/右/后)替代原始的输入视图相关设置 - LoRA微调:作为轻量适配器保留原始3D先验 - Pixel注入器:将输入图像作为第7个视图注入3D self-attention(受ImageDream启发),解决固定相机设置下原始特征对齐失效的问题 - LGM替代NeuS:用前/左/右/后4视图直接生成3DGS,替代耗时的优化式3D lifting

  1. 零样本朝向估计

生成朝向对齐的3D模型作为模板 → FoundationPose从多视点渲染+姿态精细化 → DINOv2特征匹配选择最佳视点。关键贡献是无需CAD模型或深度图,用生成模型替代。

损失函数 / 训练策略

  • Trellis-OA:直接微调稀疏结构生成器,保持端到端训练
  • Wonder3D-OA:LoRA微调+pixel注入器修改3D attention维度\((b_z, 6, c, h, w) \to (b_z, 7, c, h, w)\)
  • 省略法线图生成分支,简化流水线

实验关键数据

主实验:朝向对齐生成质量(Wonder3D backbone)

方法 GSO CD↓ GSO LPIPS↓ GSO CLIP↑ Toys4k CD↓ Toys4k CLIP↑
Wonder3D 0.0894 0.2799 76.37 0.0932 87.10
+ PCA 0.0788 0.2554 77.80 0.0858 87.58
+ VLM (Gemini) 0.0850 0.2752 76.30 0.0880 87.53
+ Orient Anything 0.1015 0.2600 77.50 0.1079 88.12
Wonder3D-OA 0.0564 0.2270 80.30 0.0548 92.09

Trellis backbone

方法 GSO CD↓ GSO CLIP↑ Toys4k CD↓ Toys4k CLIP↑
Trellis + VLM 0.0421 89.97 0.0564 95.19
Trellis + OA (small) 0.0448 82.46 0.0465 93.74
Trellis-OA 0.0407 88.41 0.0393 95.71

零样本朝向估计

方法 Toys4k Acc@30↑ Toys4k Abs↓ Stick-like Acc@30↑
FSDetView (Few-shot) 20.90 91.66 10.29
Orient Anything (ViT-L) 63.18 36.37 9.8
Ours (ViT-L) 52.87 46.76 62.25

消融实验

训练数据 Toys4k CD↓ Toys4k CLIP↑
100类+5720物体 (small) 0.0465 93.74
1008类+14832物体 (full) 0.0393 95.71

关键发现

  • 直接微调生成模型显著优于后处理对齐方案(CD降低30-40%)
  • Trellis中仅微调稀疏结构生成器就够——说明朝向信息主要编码在结构中
  • 对棍状物体(叉子、钥匙等),Orient Anything几乎完全失败(Acc@30仅9.8%),而本文方法达到62.25%
  • 类别多样性至关重要——从100类增加到1008类带来了明显的性能提升

亮点与洞察

  1. 定义了新任务——朝向对齐3D生成,填补了3D生成与实际应用之间的鸿沟
  2. 数据集构建的务实策略:VLM粗筛+人工精修,在效率和质量间取得平衡
  3. "仅需微调稀疏结构生成器"的发现揭示了3D VAE中朝向信息的编码位置
  4. 箭头操控应用直观展示了朝向对齐带来的用户体验提升

局限与展望

  • 零样本朝向估计在常规物体上不如Orient Anything(Toys4k Acc@30低约10点),强项在长尾/棍状物体
  • 数据集构建仍需大量人工(约600类需要手动矫正),自动化程度有待提高
  • 朝向定义的歧义性是固有困难(如杯子的"正面"在哪里),不同数据集的定义可能不一致
  • 未讨论对称物体的处理策略

相关工作与启发

  • VLM在方向识别上的错误模式分析(棍状物体、薄物体、歧义物体)对数据标注有参考价值
  • 微调策略的选择(完整微调 vs LoRA)取决于模型架构如何编码朝向信息

评分

  • 新颖性: ⭐⭐⭐⭐ 新任务定义清晰,数据集有价值,但方法本身以微调为主
  • 实验充分度: ⭐⭐⭐⭐ 两种backbone+两个未见数据集+真实世界场景+下游应用
  • 写作质量: ⭐⭐⭐⭐ 任务动机清晰,可视化丰富
  • 价值: ⭐⭐⭐⭐ Objaverse-OA数据集本身有长期价值,下游应用场景明确

相关论文