MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning¶
会议: NeurIPS 2025
arXiv: 2509.22281
代码: 有
领域: 机器人 / 3D 场景生成
关键词: 桌面场景生成, 空间推理链, LLM场景生成, DPO, 机器人操控
一句话总结¶
提出 MesaTask 框架,通过 Spatial Reasoning Chain 将任务描述分解为对象推理→空间关系推理→场景图构建→3D 布局,结合 10K+ 人工标注数据集和 DPO 优化,生成物理合理且任务对齐的桌面操控场景。
研究背景与动机¶
领域现状:机器人操控需要多样化的桌面场景用于策略训练,但传统方法依赖手工设计或纯随机布局,多样性和物理合理性难以兼顾。
现有痛点:现有 LLM 场景生成方法(LayoutGPT 等)零样本能力有限,难以建模堆叠、嵌套等复杂物体间关系。图像重建方法受遮挡影响严重。
核心矛盾:高层任务描述与具体 3D 布局之间存在巨大鸿沟——"准备一顿晚餐"如何转化为餐具、食物的精确 3D 位置和朝向?
切入角度:Spatial Reasoning Chain 将问题分解为 CoT——对象推理→属性描述→空间关系→场景图→3D 坐标。
核心 idea:SFT 注入空间推理能力 + DPO 消除碰撞和任务不对齐。
方法详解¶
整体框架¶
(1) MesaTask-10K 数据集构建(T2I → 深度估计 → 3D 检索 → 人工精修 → 物理仿真);(2) Spatial Reasoning Chain 训练数据构建;(3) LLM SFT + DPO 训练。
关键设计¶
-
MesaTask-10K 数据集
- 功能:构建 10,700 个人工标注的桌面场景
- 核心思路:LLM 生成场景描述 → FLUX 生成参考图 → 深度估计+检测获取粗布局 → 人工在 Blender 中精修(10-20 分钟/场景)→ IsaacSim 物理仿真消除碰撞
- 设计动机:6 类桌面(办公、餐桌、厨房等),12,000+ 3D 资产(含铰接物体),200+ 对象类别
-
Spatial Reasoning Chain
- 功能:将任务→场景的过程结构化为推理链
- 核心思路:任务描述 → 对象列表推理(需要什么物体)→ 空间关系推理(谁在谁上面/里面/旁边)→ 场景图构建(节点+边)→ 3D 坐标生成
- 设计动机:直接预测 3D 坐标太难,分步推理降低复杂度
-
SFT + DPO 训练
- 功能:SFT 注入基本空间推理能力,DPO 消除碰撞和不对齐
- 核心思路:SFT 阶段用推理链数据训练;DPO 阶段构建 preferred/rejected 对(无碰撞 vs 有碰撞,任务对齐 vs 不对齐)
- 设计动机:SFT 后仍有少量碰撞和任务偏离,DPO 有效修复
损失函数 / 训练策略¶
SFT 阶段:标准语言模型 loss;DPO 阶段:\(\mathcal{L}_{DPO} = -\log\sigma(\beta(\log\frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}))\)。
实验关键数据¶
主实验¶
| 方法 | FID↓ | 任务对齐↑ | 物理合理↑ | 布局合理↑ |
|---|---|---|---|---|
| LayoutGPT (零样本) | 185.3 | 3.2/5 | 2.8/5 | 2.5/5 |
| LLPlace (SFT) | 142.7 | 3.8/5 | 3.5/5 | 3.2/5 |
| MesaTask (SFT) | 98.5 | 4.2/5 | 4.0/5 | 3.8/5 |
| MesaTask (SFT+DPO) | 87.3 | 4.5/5 | 4.3/5 | 4.1/5 |
消融实验¶
| 配置 | 碰撞率↓ | 任务对齐↑ |
|---|---|---|
| SFT only | 12.3% | 4.2/5 |
| + DPO (碰撞对) | 4.1% | 4.2/5 |
| + DPO (任务对) | 11.8% | 4.5/5 |
| + DPO (两者) | 3.8% | 4.5/5 |
关键发现¶
- DPO 将碰撞率从 12.3% 降至 3.8%,同时提升任务对齐
- 复杂关系(堆叠、嵌套)的生成质量显著优于零样本方法
- 用户研究中 MesaTask 在所有维度上获得最高评分
亮点与洞察¶
- Spatial Reasoning Chain:将抽象任务描述到 3D 坐标的巨大鸿沟分解为可学习的步骤。这个结构化推理思路可迁移到其他 3D 生成任务。
- 数据集贡献:10K+ 人工标注场景,包含堆叠/嵌套等复杂关系,填补了该领域数据空白。
- DPO 在 3D 中的应用:首次将 DPO 用于物理碰撞消除,效果显著。
局限与展望¶
- 人工标注成本高(10-20 分钟/场景),扩展困难
- 3D 资产库虽大(12K+)但仍有覆盖盲区
- 仅在模拟器中验证,真实机器人部署需跨域迁移
相关工作与启发¶
- vs LayoutGPT:零样本能力有限,难以建模复杂关系;MesaTask 通过数据驱动 SFT 解决
- vs SetItUp:固定对象集缺乏多样性;MesaTask 12K+ 资产覆盖 200+ 类别
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次形式化任务→场景生成
- 实验充分度: ⭐⭐⭐⭐⭐ FID+VLM评估+用户研究
- 写作质量: ⭐⭐⭐⭐⭐ 数据集+方法+评估系统性完整
- 价值: ⭐⭐⭐⭐⭐ 机器人操控场景生成的基础设施
相关论文¶
- [NeurIPS 2025] T-Rex: Task-Adaptive Spatial Representation Extraction for Robotic Manipulation with VLMs
- [NeurIPS 2025] MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark
- [CVPR 2025] 3D-MVP: 3D Multiview Pretraining for Robotic Manipulation
- [NeurIPS 2025] Learning Spatial-Aware Manipulation Ordering
- [AAAI 2026] EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer