Orientation Matters: Making 3D Generative Models Orientation-Aligned¶

会议: NeurIPS 2025
arXiv: 2506.08640
代码: 项目主页
领域: 3D视觉
关键词: 3D生成, 朝向对齐, 数据集构建, Objaverse, 姿态估计

一句话总结¶

提出朝向对齐3D物体生成任务，构建了跨1008个类别14832个朝向对齐3D模型的Objaverse-OA数据集，通过微调Trellis和Wonder3D两种主流3D生成框架实现朝向对齐的物体生成，并展示零样本朝向估计和箭头旋转操控两个下游应用。

研究背景与动机¶

人类能直觉地从单张图像感知物体的形状和朝向（object constancy），但现有3D生成模型生成的3D物体朝向混乱——椅子可能朝各个方向、杯子可能倾倒、车辆可能错位。这源于训练数据（如Objaverse）中3D模型朝向的不一致性。

朝向不一致的后果： 1. 无法直接用于analysis-by-synthesis范式的姿态估计 2. 在AR/VR中放置物体需要繁琐的手动朝向调整 3. 下游应用（如机器人操作、场景编辑）需要一致的canonical坐标系

现有的替代方案及其局限： - 后处理对齐：先生成再用PCA/VLM/Orient Anything估计朝向旋转——但PCA无法区分主轴方向、VLM对无明显正面特征的物体识别困难、Orient Anything精度有限 - 类别级姿态估计：需要大量人工标注的朝向对齐数据集，且限于少量类别（ImageNet3D仅200类）

本文的核心idea：直接微调3D生成模型使其输出朝向对齐的物体——需要一个足够多样的朝向对齐数据集作为基础。为此构建Objaverse-OA（14832模型×1008类别），规模远超现有数据集。

方法详解¶

整体框架¶

Objaverse-OA数据集构建（VLM预处理+人工矫正）→ 微调3D生成模型（Trellis-OA / Wonder3D-OA）→ 下游应用（零样本朝向估计 / 箭头旋转操控）

关键设计¶

Objaverse-OA数据集构建

VLM预处理：从Objaverse-LVIS的46219个模型出发，每个模型渲染4个正交视图（前/后/左/右），用Gemini-2.0识别正面视图并旋转对齐。成功识别20664个，但VLM存在三类典型错误： - 棍状物体（如叉子、钥匙）——roll/pitch未对齐 - 窄/薄物体（如鱼、自行车）——VLM仅靠正面特征判断，缺乏侧视推理 - 正面模糊物体（如茶壶、灭火器）——朝向定义本身有歧义

人工矫正：约600个类别的物体需要人工用Blender矫正。对于歧义物体参考ImageNet3D的定义规范。低质量几何和多物体场景被过滤。

Trellis-OA（3D VAE生成模型微调）

Trellis包含稀疏结构生成器\(\mathcal{G}_S\)、结构化潜码生成器\(\mathcal{G}_L\)和3D解码器\(\mathcal{D}\)三个模块。

关键发现：仅需微调稀疏结构生成器\(\mathcal{G}_S\)即可实现朝向对齐。原因是Trellis本身生成的物体姿态在四个正交方向中随机采样，而对齐后的姿态分布在此范围内——因此\(\mathcal{G}_L\)和\(\mathcal{D}\)不需要额外微调。

训练：batch size 64，30000步，8×A100约10小时。

Wonder3D-OA（多视图扩散模型微调）

核心改动： - 固定相机设置：渲染6个canonical视图（前/前左/前右/左/右/后）替代原始的输入视图相关设置 - LoRA微调：作为轻量适配器保留原始3D先验 - Pixel注入器：将输入图像作为第7个视图注入3D self-attention（受ImageDream启发），解决固定相机设置下原始特征对齐失效的问题 - LGM替代NeuS：用前/左/右/后4视图直接生成3DGS，替代耗时的优化式3D lifting

零样本朝向估计

生成朝向对齐的3D模型作为模板 → FoundationPose从多视点渲染+姿态精细化 → DINOv2特征匹配选择最佳视点。关键贡献是无需CAD模型或深度图，用生成模型替代。

损失函数 / 训练策略¶

Trellis-OA：直接微调稀疏结构生成器，保持端到端训练
Wonder3D-OA：LoRA微调+pixel注入器修改3D attention维度\((b_z, 6, c, h, w) \to (b_z, 7, c, h, w)\)
省略法线图生成分支，简化流水线

实验关键数据¶

主实验：朝向对齐生成质量（Wonder3D backbone）¶

方法	GSO CD↓	GSO LPIPS↓	GSO CLIP↑	Toys4k CD↓	Toys4k CLIP↑
Wonder3D	0.0894	0.2799	76.37	0.0932	87.10
+ PCA	0.0788	0.2554	77.80	0.0858	87.58
+ VLM (Gemini)	0.0850	0.2752	76.30	0.0880	87.53
+ Orient Anything	0.1015	0.2600	77.50	0.1079	88.12
Wonder3D-OA	0.0564	0.2270	80.30	0.0548	92.09

Trellis backbone¶

方法	GSO CD↓	GSO CLIP↑	Toys4k CD↓	Toys4k CLIP↑
Trellis + VLM	0.0421	89.97	0.0564	95.19
Trellis + OA (small)	0.0448	82.46	0.0465	93.74
Trellis-OA	0.0407	88.41	0.0393	95.71

零样本朝向估计¶

方法	Toys4k Acc@30↑	Toys4k Abs↓	Stick-like Acc@30↑
FSDetView (Few-shot)	20.90	91.66	10.29
Orient Anything (ViT-L)	63.18	36.37	9.8
Ours (ViT-L)	52.87	46.76	62.25

消融实验¶

训练数据	Toys4k CD↓	Toys4k CLIP↑
100类+5720物体 (small)	0.0465	93.74
1008类+14832物体 (full)	0.0393	95.71

关键发现¶

直接微调生成模型显著优于后处理对齐方案（CD降低30-40%）
Trellis中仅微调稀疏结构生成器就够——说明朝向信息主要编码在结构中
对棍状物体（叉子、钥匙等），Orient Anything几乎完全失败（Acc@30仅9.8%），而本文方法达到62.25%
类别多样性至关重要——从100类增加到1008类带来了明显的性能提升

亮点与洞察¶

定义了新任务——朝向对齐3D生成，填补了3D生成与实际应用之间的鸿沟
数据集构建的务实策略：VLM粗筛+人工精修，在效率和质量间取得平衡
"仅需微调稀疏结构生成器"的发现揭示了3D VAE中朝向信息的编码位置
箭头操控应用直观展示了朝向对齐带来的用户体验提升

局限与展望¶

零样本朝向估计在常规物体上不如Orient Anything（Toys4k Acc@30低约10点），强项在长尾/棍状物体
数据集构建仍需大量人工（约600类需要手动矫正），自动化程度有待提高
朝向定义的歧义性是固有困难（如杯子的"正面"在哪里），不同数据集的定义可能不一致
未讨论对称物体的处理策略

评分¶

新颖性: ⭐⭐⭐⭐ 新任务定义清晰，数据集有价值，但方法本身以微调为主
实验充分度: ⭐⭐⭐⭐ 两种backbone+两个未见数据集+真实世界场景+下游应用
写作质量: ⭐⭐⭐⭐ 任务动机清晰，可视化丰富
价值: ⭐⭐⭐⭐ Objaverse-OA数据集本身有长期价值，下游应用场景明确