Orientation Matters: Making 3D Generative Models Orientation-Aligned¶
会议: NeurIPS 2025
arXiv: 2506.08640
代码: 项目主页
领域: 3D视觉
关键词: 3D生成, 朝向对齐, 数据集构建, Objaverse, 姿态估计
一句话总结¶
提出朝向对齐3D物体生成任务,构建了跨1008个类别14832个朝向对齐3D模型的Objaverse-OA数据集,通过微调Trellis和Wonder3D两种主流3D生成框架实现朝向对齐的物体生成,并展示零样本朝向估计和箭头旋转操控两个下游应用。
研究背景与动机¶
人类能直觉地从单张图像感知物体的形状和朝向(object constancy),但现有3D生成模型生成的3D物体朝向混乱——椅子可能朝各个方向、杯子可能倾倒、车辆可能错位。这源于训练数据(如Objaverse)中3D模型朝向的不一致性。
朝向不一致的后果: 1. 无法直接用于analysis-by-synthesis范式的姿态估计 2. 在AR/VR中放置物体需要繁琐的手动朝向调整 3. 下游应用(如机器人操作、场景编辑)需要一致的canonical坐标系
现有的替代方案及其局限: - 后处理对齐:先生成再用PCA/VLM/Orient Anything估计朝向旋转——但PCA无法区分主轴方向、VLM对无明显正面特征的物体识别困难、Orient Anything精度有限 - 类别级姿态估计:需要大量人工标注的朝向对齐数据集,且限于少量类别(ImageNet3D仅200类)
本文的核心idea:直接微调3D生成模型使其输出朝向对齐的物体——需要一个足够多样的朝向对齐数据集作为基础。为此构建Objaverse-OA(14832模型×1008类别),规模远超现有数据集。
方法详解¶
整体框架¶
Objaverse-OA数据集构建(VLM预处理+人工矫正)→ 微调3D生成模型(Trellis-OA / Wonder3D-OA)→ 下游应用(零样本朝向估计 / 箭头旋转操控)
关键设计¶
- Objaverse-OA数据集构建
VLM预处理:从Objaverse-LVIS的46219个模型出发,每个模型渲染4个正交视图(前/后/左/右),用Gemini-2.0识别正面视图并旋转对齐。成功识别20664个,但VLM存在三类典型错误: - 棍状物体(如叉子、钥匙)——roll/pitch未对齐 - 窄/薄物体(如鱼、自行车)——VLM仅靠正面特征判断,缺乏侧视推理 - 正面模糊物体(如茶壶、灭火器)——朝向定义本身有歧义
人工矫正:约600个类别的物体需要人工用Blender矫正。对于歧义物体参考ImageNet3D的定义规范。低质量几何和多物体场景被过滤。
- Trellis-OA(3D VAE生成模型微调)
Trellis包含稀疏结构生成器\(\mathcal{G}_S\)、结构化潜码生成器\(\mathcal{G}_L\)和3D解码器\(\mathcal{D}\)三个模块。
关键发现:仅需微调稀疏结构生成器\(\mathcal{G}_S\)即可实现朝向对齐。原因是Trellis本身生成的物体姿态在四个正交方向中随机采样,而对齐后的姿态分布在此范围内——因此\(\mathcal{G}_L\)和\(\mathcal{D}\)不需要额外微调。
训练:batch size 64,30000步,8×A100约10小时。
- Wonder3D-OA(多视图扩散模型微调)
核心改动: - 固定相机设置:渲染6个canonical视图(前/前左/前右/左/右/后)替代原始的输入视图相关设置 - LoRA微调:作为轻量适配器保留原始3D先验 - Pixel注入器:将输入图像作为第7个视图注入3D self-attention(受ImageDream启发),解决固定相机设置下原始特征对齐失效的问题 - LGM替代NeuS:用前/左/右/后4视图直接生成3DGS,替代耗时的优化式3D lifting
- 零样本朝向估计
生成朝向对齐的3D模型作为模板 → FoundationPose从多视点渲染+姿态精细化 → DINOv2特征匹配选择最佳视点。关键贡献是无需CAD模型或深度图,用生成模型替代。
损失函数 / 训练策略¶
- Trellis-OA:直接微调稀疏结构生成器,保持端到端训练
- Wonder3D-OA:LoRA微调+pixel注入器修改3D attention维度\((b_z, 6, c, h, w) \to (b_z, 7, c, h, w)\)
- 省略法线图生成分支,简化流水线
实验关键数据¶
主实验:朝向对齐生成质量(Wonder3D backbone)¶
| 方法 | GSO CD↓ | GSO LPIPS↓ | GSO CLIP↑ | Toys4k CD↓ | Toys4k CLIP↑ |
|---|---|---|---|---|---|
| Wonder3D | 0.0894 | 0.2799 | 76.37 | 0.0932 | 87.10 |
| + PCA | 0.0788 | 0.2554 | 77.80 | 0.0858 | 87.58 |
| + VLM (Gemini) | 0.0850 | 0.2752 | 76.30 | 0.0880 | 87.53 |
| + Orient Anything | 0.1015 | 0.2600 | 77.50 | 0.1079 | 88.12 |
| Wonder3D-OA | 0.0564 | 0.2270 | 80.30 | 0.0548 | 92.09 |
Trellis backbone¶
| 方法 | GSO CD↓ | GSO CLIP↑ | Toys4k CD↓ | Toys4k CLIP↑ |
|---|---|---|---|---|
| Trellis + VLM | 0.0421 | 89.97 | 0.0564 | 95.19 |
| Trellis + OA (small) | 0.0448 | 82.46 | 0.0465 | 93.74 |
| Trellis-OA | 0.0407 | 88.41 | 0.0393 | 95.71 |
零样本朝向估计¶
| 方法 | Toys4k Acc@30↑ | Toys4k Abs↓ | Stick-like Acc@30↑ |
|---|---|---|---|
| FSDetView (Few-shot) | 20.90 | 91.66 | 10.29 |
| Orient Anything (ViT-L) | 63.18 | 36.37 | 9.8 |
| Ours (ViT-L) | 52.87 | 46.76 | 62.25 |
消融实验¶
| 训练数据 | Toys4k CD↓ | Toys4k CLIP↑ |
|---|---|---|
| 100类+5720物体 (small) | 0.0465 | 93.74 |
| 1008类+14832物体 (full) | 0.0393 | 95.71 |
关键发现¶
- 直接微调生成模型显著优于后处理对齐方案(CD降低30-40%)
- Trellis中仅微调稀疏结构生成器就够——说明朝向信息主要编码在结构中
- 对棍状物体(叉子、钥匙等),Orient Anything几乎完全失败(Acc@30仅9.8%),而本文方法达到62.25%
- 类别多样性至关重要——从100类增加到1008类带来了明显的性能提升
亮点与洞察¶
- 定义了新任务——朝向对齐3D生成,填补了3D生成与实际应用之间的鸿沟
- 数据集构建的务实策略:VLM粗筛+人工精修,在效率和质量间取得平衡
- "仅需微调稀疏结构生成器"的发现揭示了3D VAE中朝向信息的编码位置
- 箭头操控应用直观展示了朝向对齐带来的用户体验提升
局限与展望¶
- 零样本朝向估计在常规物体上不如Orient Anything(Toys4k Acc@30低约10点),强项在长尾/棍状物体
- 数据集构建仍需大量人工(约600类需要手动矫正),自动化程度有待提高
- 朝向定义的歧义性是固有困难(如杯子的"正面"在哪里),不同数据集的定义可能不一致
- 未讨论对称物体的处理策略
相关工作与启发¶
- VLM在方向识别上的错误模式分析(棍状物体、薄物体、歧义物体)对数据标注有参考价值
- 微调策略的选择(完整微调 vs LoRA)取决于模型架构如何编码朝向信息
评分¶
- 新颖性: ⭐⭐⭐⭐ 新任务定义清晰,数据集有价值,但方法本身以微调为主
- 实验充分度: ⭐⭐⭐⭐ 两种backbone+两个未见数据集+真实世界场景+下游应用
- 写作质量: ⭐⭐⭐⭐ 任务动机清晰,可视化丰富
- 价值: ⭐⭐⭐⭐ Objaverse-OA数据集本身有长期价值,下游应用场景明确
相关论文¶
- [NeurIPS 2025] Orientation-anchored Hyper-Gaussian for 4D Reconstruction from Casual Videos
- [NeurIPS 2025] SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation
- [CVPR 2025] Compass Control: Multi Object Orientation Control for Text-to-Image Generation
- [NeurIPS 2025] Frequency Matters: When Time Series Foundation Models Fail Under Spectral Shift
- [NeurIPS 2025] SyncHuman: Synchronizing 2D and 3D Generative Models for Single-View Human Reconstruction