跳转至

MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

会议: NeurIPS 2025
arXiv: 2509.22281
代码: 有
领域: 机器人 / 3D 场景生成
关键词: 桌面场景生成, 空间推理链, LLM场景生成, DPO, 机器人操控

一句话总结

提出 MesaTask 框架,通过 Spatial Reasoning Chain 将任务描述分解为对象推理→空间关系推理→场景图构建→3D 布局,结合 10K+ 人工标注数据集和 DPO 优化,生成物理合理且任务对齐的桌面操控场景。

研究背景与动机

领域现状:机器人操控需要多样化的桌面场景用于策略训练,但传统方法依赖手工设计或纯随机布局,多样性和物理合理性难以兼顾。

现有痛点:现有 LLM 场景生成方法(LayoutGPT 等)零样本能力有限,难以建模堆叠、嵌套等复杂物体间关系。图像重建方法受遮挡影响严重。

核心矛盾:高层任务描述与具体 3D 布局之间存在巨大鸿沟——"准备一顿晚餐"如何转化为餐具、食物的精确 3D 位置和朝向?

切入角度:Spatial Reasoning Chain 将问题分解为 CoT——对象推理→属性描述→空间关系→场景图→3D 坐标。

核心 idea:SFT 注入空间推理能力 + DPO 消除碰撞和任务不对齐。

方法详解

整体框架

(1) MesaTask-10K 数据集构建(T2I → 深度估计 → 3D 检索 → 人工精修 → 物理仿真);(2) Spatial Reasoning Chain 训练数据构建;(3) LLM SFT + DPO 训练。

关键设计

  1. MesaTask-10K 数据集

    • 功能:构建 10,700 个人工标注的桌面场景
    • 核心思路:LLM 生成场景描述 → FLUX 生成参考图 → 深度估计+检测获取粗布局 → 人工在 Blender 中精修(10-20 分钟/场景)→ IsaacSim 物理仿真消除碰撞
    • 设计动机:6 类桌面(办公、餐桌、厨房等),12,000+ 3D 资产(含铰接物体),200+ 对象类别
  2. Spatial Reasoning Chain

    • 功能:将任务→场景的过程结构化为推理链
    • 核心思路:任务描述 → 对象列表推理(需要什么物体)→ 空间关系推理(谁在谁上面/里面/旁边)→ 场景图构建(节点+边)→ 3D 坐标生成
    • 设计动机:直接预测 3D 坐标太难,分步推理降低复杂度
  3. SFT + DPO 训练

    • 功能:SFT 注入基本空间推理能力,DPO 消除碰撞和不对齐
    • 核心思路:SFT 阶段用推理链数据训练;DPO 阶段构建 preferred/rejected 对(无碰撞 vs 有碰撞,任务对齐 vs 不对齐)
    • 设计动机:SFT 后仍有少量碰撞和任务偏离,DPO 有效修复

损失函数 / 训练策略

SFT 阶段:标准语言模型 loss;DPO 阶段:\(\mathcal{L}_{DPO} = -\log\sigma(\beta(\log\frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}))\)

实验关键数据

主实验

方法 FID↓ 任务对齐↑ 物理合理↑ 布局合理↑
LayoutGPT (零样本) 185.3 3.2/5 2.8/5 2.5/5
LLPlace (SFT) 142.7 3.8/5 3.5/5 3.2/5
MesaTask (SFT) 98.5 4.2/5 4.0/5 3.8/5
MesaTask (SFT+DPO) 87.3 4.5/5 4.3/5 4.1/5

消融实验

配置 碰撞率↓ 任务对齐↑
SFT only 12.3% 4.2/5
+ DPO (碰撞对) 4.1% 4.2/5
+ DPO (任务对) 11.8% 4.5/5
+ DPO (两者) 3.8% 4.5/5

关键发现

  • DPO 将碰撞率从 12.3% 降至 3.8%,同时提升任务对齐
  • 复杂关系(堆叠、嵌套)的生成质量显著优于零样本方法
  • 用户研究中 MesaTask 在所有维度上获得最高评分

亮点与洞察

  • Spatial Reasoning Chain:将抽象任务描述到 3D 坐标的巨大鸿沟分解为可学习的步骤。这个结构化推理思路可迁移到其他 3D 生成任务。
  • 数据集贡献:10K+ 人工标注场景,包含堆叠/嵌套等复杂关系,填补了该领域数据空白。
  • DPO 在 3D 中的应用:首次将 DPO 用于物理碰撞消除,效果显著。

局限与展望

  • 人工标注成本高(10-20 分钟/场景),扩展困难
  • 3D 资产库虽大(12K+)但仍有覆盖盲区
  • 仅在模拟器中验证,真实机器人部署需跨域迁移

相关工作与启发

  • vs LayoutGPT:零样本能力有限,难以建模复杂关系;MesaTask 通过数据驱动 SFT 解决
  • vs SetItUp:固定对象集缺乏多样性;MesaTask 12K+ 资产覆盖 200+ 类别

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次形式化任务→场景生成
  • 实验充分度: ⭐⭐⭐⭐⭐ FID+VLM评估+用户研究
  • 写作质量: ⭐⭐⭐⭐⭐ 数据集+方法+评估系统性完整
  • 价值: ⭐⭐⭐⭐⭐ 机器人操控场景生成的基础设施

相关论文